首頁|必讀|視頻|專訪|運(yùn)營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會展
首頁 >> 頭條資訊 >> 正文

AI下一個(gè)必爭之地,會引發(fā)自動(dòng)駕駛“終局之戰(zhàn)”嗎?

2025年1月16日 06:16  界面新聞  

文|極智GeeTech

“機(jī)器人的ChatGPT時(shí)刻即將到來。與大語言模型一樣,世界基礎(chǔ)模型對于推進(jìn)機(jī)器人和自動(dòng)駕駛汽車的開發(fā)至關(guān)重要!

在CES 2025上,黃仁勛身穿新皮衣,除了推出炸裂的RTX 5090之外,還宣布入局人工智能領(lǐng)域當(dāng)下最關(guān)鍵的方向——世界模型。

此次英偉達(dá)發(fā)布的Cosmos世界基礎(chǔ)模型專為物理交互、模擬工業(yè)環(huán)境和駕駛環(huán)境的高質(zhì)量生成而構(gòu)建,可以生成逼真的視頻用于訓(xùn)練機(jī)器人和自動(dòng)駕駛汽車,并通過創(chuàng)建合成訓(xùn)練數(shù)據(jù)幫助機(jī)器人和汽車?yán)斫馕锢硎澜纭?

除了英偉達(dá),谷歌(196.98,5.93,3.10%)以及不少初創(chuàng)企業(yè)也在追逐世界模型,谷歌旗下DeepMind組建世界模型研究團(tuán)隊(duì),被視為谷歌在通用人工智能(AGI)領(lǐng)域與競爭對手展開角逐的重要一步。此外,“AI教母”李飛飛的World Labs、初創(chuàng)公司Decart、Odyssey也都涉足其中。

北京智源人工智能研究院近日發(fā)布的“2025十大AI技術(shù)趨勢”認(rèn)為,更注重“因果”推理的世界模型有望成為多模態(tài)大模型的下一階段。

世界模型不僅引得全球科技企業(yè)競相逐鹿,還被業(yè)內(nèi)視為人工智能領(lǐng)域的下一個(gè)關(guān)鍵突破。世界模型為何如此重要?對于自動(dòng)駕駛等科技領(lǐng)域?qū)⒂|發(fā)怎樣的新變革?

人工智能下一個(gè)“必爭之地”

在現(xiàn)實(shí)世界中,技術(shù)也是可以高度重構(gòu)的,隨著時(shí)間的推移、新技術(shù)的出現(xiàn),未來在不斷改進(jìn)、不斷進(jìn)化。

自2022年底,隨著OpenAI發(fā)布大語言模型ChatGPT,生成式AI大模型便逐漸演化出了兩條路徑:語言模型和世界模型。

語言模型繼續(xù)在數(shù)字世界深耕,從單一的文本模態(tài)走向包含圖片、視頻在內(nèi)的多模態(tài),使其具備了文生圖、看圖說話、圖生圖、文生視頻的能力,典型代表就是Sora和GPT4-o。

不過,語言模型最受爭議的挑戰(zhàn)是它們產(chǎn)生幻覺的傾向,會捏造參考資料和事實(shí),或在邏輯推斷、因果推理等方面顛三倒四、生成毫無意義的內(nèi)容的情況,這些幻覺都源于它們?nèi)狈κ录g因果關(guān)系的了解。

這也表明,語言模型雖然善于從數(shù)據(jù)中識別和提取因果關(guān)系,但缺乏自己主動(dòng)推理新的因果場景的能力。它們具備通過觀察進(jìn)行因果歸納的能力,但不具備因果演繹的能力。

世界模型則從數(shù)字世界走向物理世界,從一維形式的數(shù)字智能走向三維形式的空間智能。它通過預(yù)訓(xùn)練擴(kuò)展視頻和多模態(tài)數(shù)據(jù),并集成多模態(tài)語言模型,可用于為視頻游戲和電影創(chuàng)建實(shí)時(shí)交互式媒體環(huán)境,以及為機(jī)器人和其他人工智能系統(tǒng)創(chuàng)建逼真的訓(xùn)練場景等諸多場景,被業(yè)界認(rèn)為是通往通用人工智能(AGI,指機(jī)器能夠理解或?qū)W習(xí)人類能夠執(zhí)行的任何智力任務(wù))的關(guān)鍵路徑。

追溯一下,“World Models”(世界模型)最早出現(xiàn)在機(jī)器學(xué)習(xí)領(lǐng)域。

2018年,機(jī)器學(xué)習(xí)頂級會議NeurIPS收錄的《Recurrent World Models Facilitate Policy Evolution》論文,以認(rèn)知科學(xué)中的心智模型(Mental Model)來類比世界模型,認(rèn)為其參與了人類的認(rèn)知、推理、決策過程。其中,最核心的能力——反事實(shí)推理(Counterfactual Reasoning),是一種人類天然具備的能力。

2024年2月,OpenAI發(fā)布了震驚世界的文生視頻大模型Sora,它可以根據(jù)文本自動(dòng)生成一段60秒視頻,這成為世界模型的一個(gè)具象體現(xiàn)。

傳統(tǒng)的生成式模型或許能夠準(zhǔn)確預(yù)測籃球會彈跳,但并不真正理解其中原因,就像大語言模型實(shí)際上是基于神經(jīng)網(wǎng)絡(luò)的概率推理,給出最可能符合實(shí)際預(yù)期的答案,而非真正理解詞語和短語背后的意義。然而,具有基本物理認(rèn)知的世界模型將更善于展現(xiàn)“籃球的真實(shí)彈跳”。

相比大語言模型還停留在理解人類語義階段,世界模型則以三維視角開始理解真實(shí)的物理世界。

關(guān)于理解真實(shí)世界的物理法則,其實(shí)并沒有想象得那么容易。比如,現(xiàn)在讓你去想象手掌時(shí),你都能準(zhǔn)確且毫不費(fèi)力地想象出來,但是在目前人工智能的制作中,會經(jīng)常會出現(xiàn)多根手指或連指的現(xiàn)象。

此前,Meta首席人工智能科學(xué)家楊立昆(Yann LeCun)就明確表示,基于文本提示生成的逼真視頻并不代表模型真正理解了物理世界。之后更是直言,像Sora這樣通過生成像素來建模世界的方式注定要失敗。

世界模型正在試圖超越數(shù)據(jù),模擬人類的潛意識推理。例如,棒球擊球手能在毫秒內(nèi)決定如何揮棒,是因?yàn)樗麄兛梢员灸艿仡A(yù)測球的軌跡。這種潛意識推理能力被認(rèn)為是實(shí)現(xiàn)人類級智能的先決條件之一。

為此,世界模型通過在大量的照片、音頻、視頻和文本數(shù)據(jù)上進(jìn)行訓(xùn)練,創(chuàng)建對世界運(yùn)作方式的內(nèi)部表征,并能推理行為的后果,這使它們能更好地理解和模擬現(xiàn)實(shí)世界的規(guī)律。

當(dāng)前,人工智能領(lǐng)域?qū)κ澜缒P偷男枨笾饕性趦蓚(gè)方面。

第一,對環(huán)境的深度理解和建模。通過建立準(zhǔn)確的世界模型,人工智能系統(tǒng)可以更好地感知和理解外部世界,從而做出更加準(zhǔn)確和智能的決策。當(dāng)前,人工智能領(lǐng)域在這一方面的研究主要集中在強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域,通過神經(jīng)網(wǎng)絡(luò)等技術(shù)來構(gòu)建復(fù)雜的世界模型,并不斷優(yōu)化和改進(jìn)模型的性能。

第二,是反事實(shí)推理的能力提升。反事實(shí)推理,也就是回答“如果……會發(fā)生什么?”問題,這是當(dāng)前人工智能系統(tǒng)能力的一個(gè)短板。通過提升世界模型的反事實(shí)推理能力,人工智能系統(tǒng)可以更好地預(yù)測不同決策的可能結(jié)果,從而做出更加智能和合理的決策。人工智能領(lǐng)域在這一方面的研究集中在改進(jìn)模型的預(yù)測能力和優(yōu)化推理算法等方面,以提升模型的整體性能和效果。

自動(dòng)駕駛迎來“關(guān)鍵一戰(zhàn)”

對于世界模型是否會成為自動(dòng)駕駛的終極之戰(zhàn),目前下結(jié)論為時(shí)尚早,不過可以肯定的是,一旦這一技術(shù)趨于成熟,將對自動(dòng)駕駛的智能化水平帶來“質(zhì)”的躍遷。

自動(dòng)駕駛的飛速發(fā)展,對數(shù)據(jù)有了進(jìn)一步要求。車企需要豐富、復(fù)雜場景來錘煉汽車的自動(dòng)駕駛能力,然而現(xiàn)實(shí)生活中數(shù)據(jù)采集成本居高不下,部分危險(xiǎn)場景難以采集,長尾場景稀缺,影響自動(dòng)駕駛進(jìn)一步發(fā)展。

因此,采用合成數(shù)據(jù)來助力自動(dòng)駕駛模型訓(xùn)練成了有效的解決方案,世界模型正是這樣的場景生成和預(yù)測器,能夠?yàn)樽詣?dòng)駕駛模型訓(xùn)練提供豐富虛擬場景。

過去,多模塊化的智能駕駛方案可以對感知和規(guī)控模塊分別進(jìn)行驗(yàn)證,在感知端層面,工程師可以將感知的結(jié)果和帶有標(biāo)注的真實(shí)世界狀況直接對比,進(jìn)行開環(huán)監(jiān)測;在規(guī)控模塊,可以依靠仿真工具將世界的各類場景輸入,通過環(huán)境的變換來給模型反饋,進(jìn)行閉環(huán)的驗(yàn)證規(guī)控算法性能。

而端到端智駕方案將感知、預(yù)測、規(guī)劃、控制集成一體,這就要求仿真工具既可以逼真地還原外部環(huán)境,同時(shí)又能給模型反饋實(shí)現(xiàn)閉環(huán)測試,這是世界模型可以實(shí)現(xiàn)的。

雖然國內(nèi)汽車行業(yè)現(xiàn)在的關(guān)注焦點(diǎn)停留在端到端,但業(yè)內(nèi)共識是,從“兩段式”逐步過渡到“一段式”端到端,最終實(shí)現(xiàn)世界模型的應(yīng)用,是實(shí)現(xiàn)高階自動(dòng)駕駛的一條必經(jīng)之路。

如果梳理自動(dòng)駕駛技術(shù)的發(fā)展路線,就會發(fā)現(xiàn)一個(gè)非常有意思的事情。所謂“功夫在詩外”,這幾年所有對自動(dòng)駕駛發(fā)展產(chǎn)生推動(dòng)的技術(shù)其實(shí)都不源于自動(dòng)駕駛,而是人工智能,包括BEV+Transformer、占用網(wǎng)絡(luò)OCC、端到端、世界模型,自動(dòng)駕駛的本質(zhì)就是人工智能的一個(gè)具身智能體現(xiàn)。一定要把自動(dòng)駕駛放到整個(gè)人工智能領(lǐng)域來綜合看待,如果只盯著自動(dòng)駕駛,這樣就永遠(yuǎn)搞不好自動(dòng)駕駛。

自動(dòng)駕駛發(fā)展這么多年,都是在做空間理解的升級,就是讓系統(tǒng)更理解周圍的世界。

最早是通過提升傳感器硬件能力,后來是算法升級,通過鳥瞰視圖(BEV,Bird’s-Eye-View)進(jìn)行視角轉(zhuǎn)換,利用占用網(wǎng)絡(luò)(OCC,Occupancy Network)將2D轉(zhuǎn)換為3D,到現(xiàn)在軟硬件能力都已經(jīng)出現(xiàn)瓶頸,但是極端場景數(shù)據(jù)的獲取卻成了大難題。

目前比較常規(guī)的做法有兩個(gè),一個(gè)是3D重建,但這樣的做法成本高、效率低,并不實(shí)用;另一個(gè)就是仿真,但是仿真的數(shù)據(jù)根本無法“還原”真實(shí)數(shù)據(jù),對自動(dòng)駕駛的幫助有限。

于是,世界模型通過自己“造數(shù)據(jù)”,成為提升自動(dòng)駕駛訓(xùn)練效率的有效方式之一。其不僅可以通過生成式大模型生成帶有預(yù)測性質(zhì)的視頻數(shù)據(jù),實(shí)現(xiàn)Corner Case多樣化訓(xùn)練,還可以采用強(qiáng)化學(xué)習(xí)的方法認(rèn)識復(fù)雜駕駛環(huán)境,從視頻輸出駕駛決策。

世界模型將過去由人向人工智能主動(dòng)提出問題,人工智能被動(dòng)向訪問者給予反饋的模式,進(jìn)化為交互式人工智能的新階段,使人工智能能夠主動(dòng)感知周圍環(huán)境,并主動(dòng)提問,從而變成一個(gè)可以自主行動(dòng)的實(shí)體。

2023年,特斯拉(428.22,31.86,8.04%)自動(dòng)駕駛負(fù)責(zé)人在CVPR上介紹了通用世界模型,該模型可以通過過往的視頻片段和行動(dòng)提示,生成“可能的未來”全新視頻。

Wayve也在2023年發(fā)布了GAIA-1模型,可以依靠視頻、文本和動(dòng)作的輸入生成逼真的視頻,能夠生成分鐘級的視頻以及多種合理的未來場景,幫助自動(dòng)駕駛模型的訓(xùn)練和仿真。

在CES 2025上,英偉達(dá)發(fā)布Cosmos世界基礎(chǔ)模型(WFM),可以接受文本、圖像或視頻的提示,生成虛擬世界狀態(tài),并針對自動(dòng)駕駛和機(jī)器人應(yīng)用實(shí)現(xiàn)內(nèi)容的生成。

與此同時(shí),國內(nèi)廠商也在加速跟進(jìn)世界模型的搭建。

2024年7月,蔚來(4.1,0.02,0.49%)發(fā)布智能駕駛世界模型NWM。這是一個(gè)具有全量理解數(shù)據(jù)、長時(shí)序推演和決策能力的智能駕駛世界模型,能夠在短時(shí)間內(nèi)推演出上百種可能發(fā)生的場景,并尋找到最優(yōu)決策。

理想(21.88,-0.45,-2.02%)汽車也在其智駕方案中引入了“重建+生成的世界模型”,利用3D高斯模型做場景重建,利用擴(kuò)散模型做場景生成,以重建仿真和生成仿真兩種技術(shù)路線,為智駕方案提供了“錯(cuò)題集”和“模擬題”。

如此看來,世界模型勢必將是汽車智能化的一道分水嶺,其在場景生成、模型訓(xùn)練、仿真測試、數(shù)據(jù)閉環(huán)等方面的獨(dú)特優(yōu)勢,將推動(dòng)包括自動(dòng)駕駛、機(jī)器人等在內(nèi)的人工智能應(yīng)用迎來“ChatGPT時(shí)刻”。

更輕的車,更“重”的云

歸根結(jié)底,自動(dòng)駕駛的競爭最終將是算法、算力、數(shù)據(jù)的底層能力之爭,出現(xiàn)任何一塊短板,都將引發(fā)木桶效應(yīng)。

整體上看,自動(dòng)駕駛正呈現(xiàn)出由車端競爭向云端競爭遷移的趨勢,整個(gè)產(chǎn)業(yè)在更“輕”的同時(shí)也更“重”。

根據(jù)阿伯丁大學(xué)、MIT等機(jī)構(gòu)的研究者對算力需求的研究發(fā)現(xiàn),在2010年之前模型訓(xùn)練所需的算力增長符合摩爾定律,大約每20個(gè)月翻一番。自2010年初深度學(xué)習(xí)問世以來,訓(xùn)練所需的算力快速增長,大約每6個(gè)月翻一番。2015年末,隨著大規(guī)模機(jī)器學(xué)習(xí)模型的出現(xiàn),訓(xùn)練算力的需求提高了10-100倍,出現(xiàn)了一種新的趨勢。

與目前用于生成式模型的計(jì)算量相比,訓(xùn)練和運(yùn)行世界模型需要龐大的算力,即使是Sora(可以視為早期的世界模型)也需要數(shù)千個(gè)GPU來訓(xùn)練和運(yùn)行,尤其是在其使用變得普及的情況下。

隨著模型的持續(xù)進(jìn)化,車端顯然無法承受算力之重,智能化的中心必然要從車端逐步遷移到云端。

通過建設(shè)云端強(qiáng)大的數(shù)據(jù)閉環(huán)和算力能力,并配合路側(cè)邊緣計(jì)算系統(tǒng)的數(shù)據(jù)感知融合、實(shí)時(shí)處理、計(jì)算和分析,車端因進(jìn)化迭代所面臨的技術(shù)與算力瓶頸被打破,“云”成為智能汽車進(jìn)化路上強(qiáng)大的底層基建。

而車端借助路側(cè)邊緣計(jì)算系統(tǒng)與云端數(shù)據(jù)中心,將車端算力、數(shù)據(jù)處理、軟硬件成本進(jìn)行后移,實(shí)現(xiàn)技術(shù)與成本的雙減負(fù),智駕技術(shù)得以被普及到更低價(jià)格段的車型上。正在攀登高階自動(dòng)駕駛這座珠峰的玩家,能夠不斷通過“技術(shù)進(jìn)步→成本降低→產(chǎn)品落地”的循環(huán),來獲得更大市場。

車端與路側(cè)和云端形成完整的閉環(huán),車端和路側(cè)收集到海量的交通數(shù)據(jù)之后,云端利用大數(shù)據(jù)和AI算法,對數(shù)據(jù)進(jìn)行分析與挖掘,從中提取有價(jià)值的信息。

例如,通過對交通流量進(jìn)行數(shù)據(jù)分析,交管部門可以根據(jù)實(shí)時(shí)交通流和道路情況智能調(diào)整配時(shí)方案,提高道路通行效率。同時(shí),車輛也能接收到車路云網(wǎng)絡(luò)的信息,提前了解道路上的障礙和危險(xiǎn),從而采取相應(yīng)措施確保行車安全。

同時(shí),車端和路側(cè)數(shù)據(jù)可以在云端集中進(jìn)行自動(dòng)駕駛模型的訓(xùn)練與仿真,再把模型數(shù)據(jù)發(fā)回車端,進(jìn)行OTA部署及更新,三端進(jìn)行協(xié)同互補(bǔ),由此完成了自動(dòng)駕駛技術(shù)的迭代與進(jìn)化。

然而,世界模型的構(gòu)建和應(yīng)用也面臨著顯著的挑戰(zhàn)。

首先,環(huán)境模擬的準(zhǔn)確性極大地依賴于模型的復(fù)雜度和所擁有的數(shù)據(jù)質(zhì)量。要精確地預(yù)測復(fù)雜環(huán)境中的動(dòng)態(tài)變化,需要大量的數(shù)據(jù)和強(qiáng)大的計(jì)算資源,這對于資源有限的項(xiàng)目來說可能是一個(gè)限制。

自動(dòng)駕駛是對人類駕駛行為的學(xué)習(xí),人的駕駛能力有上限,所有自動(dòng)駕駛的安全邊界也有上限,自動(dòng)駕駛的安全必須高于人類才有意義,尤其是L4級自動(dòng)駕駛。所以必須要有高于人類駕駛行為的世界模型數(shù)據(jù)訓(xùn)練出來的系統(tǒng)才能優(yōu)于人類。

其次,構(gòu)建一個(gè)能夠泛化到多種不同環(huán)境的世界模型是極具挑戰(zhàn)性的,因?yàn)楝F(xiàn)實(shí)世界的復(fù)雜性和不可預(yù)測性遠(yuǎn)遠(yuǎn)超出了任何現(xiàn)有模型的處理能力。

世界模型和所有人工智能模型一樣,也會產(chǎn)生幻覺,并內(nèi)化訓(xùn)練數(shù)據(jù)中的偏見。世界模型的訓(xùn)練數(shù)據(jù)必須足夠廣泛,以涵蓋多樣化的情景,同時(shí)也要足夠具體,使模型能夠深入理解這些情景的細(xì)微差別。

盡管世界模型在理論上具有巨大潛力,但在實(shí)際應(yīng)用中仍然存在許多未知數(shù)。例如,如何確保模型的預(yù)測準(zhǔn)確性,如何處理模型可能的偏差,以及如何在不同的應(yīng)用場景中調(diào)整模型參數(shù)以適應(yīng)特定的需求等問題都需要進(jìn)一步的研究和探索。

對于汽車智能化這個(gè)宏大主題來說,行進(jìn)道路確實(shí)非常艱難。有時(shí)目標(biāo)足夠沉,問題足夠多,才有這么多的技術(shù)被發(fā)明、被創(chuàng)造,而每個(gè)技術(shù)名詞的背后,都是成長的印記,也是試錯(cuò)的痕跡。但正是一段段的技術(shù)死磕,才讓智能化逐漸有了一個(gè)更明朗的未來。

編 輯:魏德齡
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
中國信通院湯立波:“5G+工業(yè)互聯(lián)網(wǎng)”已進(jìn)入規(guī);l(fā)展新階段
精彩專題
2024通信業(yè)年終盤點(diǎn)
2024數(shù)字科技生態(tài)大會
2024年度中國光電纜優(yōu)質(zhì)供應(yīng)商評選活動(dòng)
2024全球6G發(fā)展大會
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像