123,123

文|極智GeeTech

“機(jī)器人的ChatGPT時(shí)刻即將到來(lái)。與大語(yǔ)言模型一樣，世界基礎(chǔ)模型對(duì)于推進(jìn)機(jī)器人和自動(dòng)駕駛汽車的開(kāi)發(fā)至關(guān)重要。”

在CES 2025上，黃仁勛身穿新皮衣，除了推出炸裂的RTX 5090之外，還宣布入局人工智能領(lǐng)域當(dāng)下最關(guān)鍵的方向——世界模型。

此次英偉達(dá)發(fā)布的Cosmos世界基礎(chǔ)模型專為物理交互、模擬工業(yè)環(huán)境和駕駛環(huán)境的高質(zhì)量生成而構(gòu)建，可以生成逼真的視頻用于訓(xùn)練機(jī)器人和自動(dòng)駕駛汽車，并通過(guò)創(chuàng)建合成訓(xùn)練數(shù)據(jù)幫助機(jī)器人和汽車?yán)斫馕锢硎澜纭?

除了英偉達(dá)，谷歌(196.98,5.93,3.10%)以及不少初創(chuàng)企業(yè)也在追逐世界模型，谷歌旗下DeepMind組建世界模型研究團(tuán)隊(duì)，被視為谷歌在通用人工智能（AGI）領(lǐng)域與競(jìng)爭(zhēng)對(duì)手展開(kāi)角逐的重要一步。此外，“AI教母”李飛飛的World Labs、初創(chuàng)公司Decart、Odyssey也都涉足其中。

北京智源人工智能研究院近日發(fā)布的“2025十大AI技術(shù)趨勢(shì)”認(rèn)為，更注重“因果”推理的世界模型有望成為多模態(tài)大模型的下一階段。

世界模型不僅引得全球科技企業(yè)競(jìng)相逐鹿，還被業(yè)內(nèi)視為人工智能領(lǐng)域的下一個(gè)關(guān)鍵突破。世界模型為何如此重要？對(duì)于自動(dòng)駕駛等科技領(lǐng)域?qū)⒂|發(fā)怎樣的新變革？

人工智能下一個(gè)“必爭(zhēng)之地”

在現(xiàn)實(shí)世界中，技術(shù)也是可以高度重構(gòu)的，隨著時(shí)間的推移、新技術(shù)的出現(xiàn)，未來(lái)在不斷改進(jìn)、不斷進(jìn)化。

自2022年底，隨著OpenAI發(fā)布大語(yǔ)言模型ChatGPT，生成式AI大模型便逐漸演化出了兩條路徑：語(yǔ)言模型和世界模型。

語(yǔ)言模型繼續(xù)在數(shù)字世界深耕，從單一的文本模態(tài)走向包含圖片、視頻在內(nèi)的多模態(tài)，使其具備了文生圖、看圖說(shuō)話、圖生圖、文生視頻的能力，典型代表就是Sora和GPT4-o。

不過(guò)，語(yǔ)言模型最受爭(zhēng)議的挑戰(zhàn)是它們產(chǎn)生幻覺(jué)的傾向，會(huì)捏造參考資料和事實(shí)，或在邏輯推斷、因果推理等方面顛三倒四、生成毫無(wú)意義的內(nèi)容的情況，這些幻覺(jué)都源于它們?nèi)狈?duì)事件之間因果關(guān)系的了解。

這也表明，語(yǔ)言模型雖然善于從數(shù)據(jù)中識(shí)別和提取因果關(guān)系，但缺乏自己主動(dòng)推理新的因果場(chǎng)景的能力。它們具備通過(guò)觀察進(jìn)行因果歸納的能力，但不具備因果演繹的能力。

世界模型則從數(shù)字世界走向物理世界，從一維形式的數(shù)字智能走向三維形式的空間智能。它通過(guò)預(yù)訓(xùn)練擴(kuò)展視頻和多模態(tài)數(shù)據(jù)，并集成多模態(tài)語(yǔ)言模型，可用于為視頻游戲和電影創(chuàng)建實(shí)時(shí)交互式媒體環(huán)境，以及為機(jī)器人和其他人工智能系統(tǒng)創(chuàng)建逼真的訓(xùn)練場(chǎng)景等諸多場(chǎng)景，被業(yè)界認(rèn)為是通往通用人工智能（AGI，指機(jī)器能夠理解或?qū)W習(xí)人類能夠執(zhí)行的任何智力任務(wù)）的關(guān)鍵路徑。

追溯一下，“World Models”（世界模型）最早出現(xiàn)在機(jī)器學(xué)習(xí)領(lǐng)域。

2018年，機(jī)器學(xué)習(xí)頂級(jí)會(huì)議NeurIPS收錄的《Recurrent World Models Facilitate Policy Evolution》論文，以認(rèn)知科學(xué)中的心智模型（Mental Model）來(lái)類比世界模型，認(rèn)為其參與了人類的認(rèn)知、推理、決策過(guò)程。其中，最核心的能力——反事實(shí)推理（Counterfactual Reasoning），是一種人類天然具備的能力。

2024年2月，OpenAI發(fā)布了震驚世界的文生視頻大模型Sora，它可以根據(jù)文本自動(dòng)生成一段60秒視頻，這成為世界模型的一個(gè)具象體現(xiàn)。

傳統(tǒng)的生成式模型或許能夠準(zhǔn)確預(yù)測(cè)籃球會(huì)彈跳，但并不真正理解其中原因，就像大語(yǔ)言模型實(shí)際上是基于神經(jīng)網(wǎng)絡(luò)的概率推理，給出最可能符合實(shí)際預(yù)期的答案，而非真正理解詞語(yǔ)和短語(yǔ)背后的意義。然而，具有基本物理認(rèn)知的世界模型將更善于展現(xiàn)“籃球的真實(shí)彈跳”。

相比大語(yǔ)言模型還停留在理解人類語(yǔ)義階段，世界模型則以三維視角開(kāi)始理解真實(shí)的物理世界。

關(guān)于理解真實(shí)世界的物理法則，其實(shí)并沒(méi)有想象得那么容易。比如，現(xiàn)在讓你去想象手掌時(shí)，你都能準(zhǔn)確且毫不費(fèi)力地想象出來(lái)，但是在目前人工智能的制作中，會(huì)經(jīng)常會(huì)出現(xiàn)多根手指或連指的現(xiàn)象。

此前，Meta首席人工智能科學(xué)家楊立昆（Yann LeCun）就明確表示，基于文本提示生成的逼真視頻并不代表模型真正理解了物理世界。之后更是直言，像Sora這樣通過(guò)生成像素來(lái)建模世界的方式注定要失敗。

世界模型正在試圖超越數(shù)據(jù)，模擬人類的潛意識(shí)推理。例如，棒球擊球手能在毫秒內(nèi)決定如何揮棒，是因?yàn)樗麄兛梢员灸艿仡A(yù)測(cè)球的軌跡。這種潛意識(shí)推理能力被認(rèn)為是實(shí)現(xiàn)人類級(jí)智能的先決條件之一。

為此，世界模型通過(guò)在大量的照片、音頻、視頻和文本數(shù)據(jù)上進(jìn)行訓(xùn)練，創(chuàng)建對(duì)世界運(yùn)作方式的內(nèi)部表征，并能推理行為的后果，這使它們能更好地理解和模擬現(xiàn)實(shí)世界的規(guī)律。

當(dāng)前，人工智能領(lǐng)域?qū)κ澜缒Ｐ偷男枨笾饕性趦蓚€(gè)方面。

第一，對(duì)環(huán)境的深度理解和建模。通過(guò)建立準(zhǔn)確的世界模型，人工智能系統(tǒng)可以更好地感知和理解外部世界，從而做出更加準(zhǔn)確和智能的決策。當(dāng)前，人工智能領(lǐng)域在這一方面的研究主要集中在強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域，通過(guò)神經(jīng)網(wǎng)絡(luò)等技術(shù)來(lái)構(gòu)建復(fù)雜的世界模型，并不斷優(yōu)化和改進(jìn)模型的性能。

第二，是反事實(shí)推理的能力提升。反事實(shí)推理，也就是回答“如果……會(huì)發(fā)生什么？”問(wèn)題，這是當(dāng)前人工智能系統(tǒng)能力的一個(gè)短板。通過(guò)提升世界模型的反事實(shí)推理能力，人工智能系統(tǒng)可以更好地預(yù)測(cè)不同決策的可能結(jié)果，從而做出更加智能和合理的決策。人工智能領(lǐng)域在這一方面的研究集中在改進(jìn)模型的預(yù)測(cè)能力和優(yōu)化推理算法等方面，以提升模型的整體性能和效果。

自動(dòng)駕駛迎來(lái)“關(guān)鍵一戰(zhàn)”

對(duì)于世界模型是否會(huì)成為自動(dòng)駕駛的終極之戰(zhàn)，目前下結(jié)論為時(shí)尚早，不過(guò)可以肯定的是，一旦這一技術(shù)趨于成熟，將對(duì)自動(dòng)駕駛的智能化水平帶來(lái)“質(zhì)”的躍遷。

自動(dòng)駕駛的飛速發(fā)展，對(duì)數(shù)據(jù)有了進(jìn)一步要求。車企需要豐富、復(fù)雜場(chǎng)景來(lái)錘煉汽車的自動(dòng)駕駛能力，然而現(xiàn)實(shí)生活中數(shù)據(jù)采集成本居高不下，部分危險(xiǎn)場(chǎng)景難以采集，長(zhǎng)尾場(chǎng)景稀缺，影響自動(dòng)駕駛進(jìn)一步發(fā)展。

因此，采用合成數(shù)據(jù)來(lái)助力自動(dòng)駕駛模型訓(xùn)練成了有效的解決方案，世界模型正是這樣的場(chǎng)景生成和預(yù)測(cè)器，能夠?yàn)樽詣?dòng)駕駛模型訓(xùn)練提供豐富虛擬場(chǎng)景。

過(guò)去，多模塊化的智能駕駛方案可以對(duì)感知和規(guī)控模塊分別進(jìn)行驗(yàn)證，在感知端層面，工程師可以將感知的結(jié)果和帶有標(biāo)注的真實(shí)世界狀況直接對(duì)比，進(jìn)行開(kāi)環(huán)監(jiān)測(cè)；在規(guī)控模塊，可以依靠仿真工具將世界的各類場(chǎng)景輸入，通過(guò)環(huán)境的變換來(lái)給模型反饋，進(jìn)行閉環(huán)的驗(yàn)證規(guī)控算法性能。

而端到端智駕方案將感知、預(yù)測(cè)、規(guī)劃、控制集成一體，這就要求仿真工具既可以逼真地還原外部環(huán)境，同時(shí)又能給模型反饋實(shí)現(xiàn)閉環(huán)測(cè)試，這是世界模型可以實(shí)現(xiàn)的。

雖然國(guó)內(nèi)汽車行業(yè)現(xiàn)在的關(guān)注焦點(diǎn)停留在端到端，但業(yè)內(nèi)共識(shí)是，從“兩段式”逐步過(guò)渡到“一段式”端到端，最終實(shí)現(xiàn)世界模型的應(yīng)用，是實(shí)現(xiàn)高階自動(dòng)駕駛的一條必經(jīng)之路。

如果梳理自動(dòng)駕駛技術(shù)的發(fā)展路線，就會(huì)發(fā)現(xiàn)一個(gè)非常有意思的事情。所謂“功夫在詩(shī)外”，這幾年所有對(duì)自動(dòng)駕駛發(fā)展產(chǎn)生推動(dòng)的技術(shù)其實(shí)都不源于自動(dòng)駕駛，而是人工智能，包括BEV+Transformer、占用網(wǎng)絡(luò)OCC、端到端、世界模型，自動(dòng)駕駛的本質(zhì)就是人工智能的一個(gè)具身智能體現(xiàn)。一定要把自動(dòng)駕駛放到整個(gè)人工智能領(lǐng)域來(lái)綜合看待，如果只盯著自動(dòng)駕駛，這樣就永遠(yuǎn)搞不好自動(dòng)駕駛。

自動(dòng)駕駛發(fā)展這么多年，都是在做空間理解的升級(jí)，就是讓系統(tǒng)更理解周圍的世界。

最早是通過(guò)提升傳感器硬件能力，后來(lái)是算法升級(jí)，通過(guò)鳥(niǎo)瞰視圖（BEV，Bird’s-Eye-View）進(jìn)行視角轉(zhuǎn)換，利用占用網(wǎng)絡(luò)（OCC，Occupancy Network）將2D轉(zhuǎn)換為3D，到現(xiàn)在軟硬件能力都已經(jīng)出現(xiàn)瓶頸，但是極端場(chǎng)景數(shù)據(jù)的獲取卻成了大難題。

目前比較常規(guī)的做法有兩個(gè)，一個(gè)是3D重建，但這樣的做法成本高、效率低，并不實(shí)用；另一個(gè)就是仿真，但是仿真的數(shù)據(jù)根本無(wú)法“還原”真實(shí)數(shù)據(jù)，對(duì)自動(dòng)駕駛的幫助有限。

于是，世界模型通過(guò)自己“造數(shù)據(jù)”，成為提升自動(dòng)駕駛訓(xùn)練效率的有效方式之一。其不僅可以通過(guò)生成式大模型生成帶有預(yù)測(cè)性質(zhì)的視頻數(shù)據(jù)，實(shí)現(xiàn)Corner Case多樣化訓(xùn)練，還可以采用強(qiáng)化學(xué)習(xí)的方法認(rèn)識(shí)復(fù)雜駕駛環(huán)境，從視頻輸出駕駛決策。

世界模型將過(guò)去由人向人工智能主動(dòng)提出問(wèn)題，人工智能被動(dòng)向訪問(wèn)者給予反饋的模式，進(jìn)化為交互式人工智能的新階段，使人工智能能夠主動(dòng)感知周圍環(huán)境，并主動(dòng)提問(wèn)，從而變成一個(gè)可以自主行動(dòng)的實(shí)體。

2023年，特斯拉(428.22,31.86,8.04%)自動(dòng)駕駛負(fù)責(zé)人在CVPR上介紹了通用世界模型，該模型可以通過(guò)過(guò)往的視頻片段和行動(dòng)提示，生成“可能的未來(lái)”全新視頻。

Wayve也在2023年發(fā)布了GAIA-1模型，可以依靠視頻、文本和動(dòng)作的輸入生成逼真的視頻，能夠生成分鐘級(jí)的視頻以及多種合理的未來(lái)場(chǎng)景，幫助自動(dòng)駕駛模型的訓(xùn)練和仿真。

在CES 2025上，英偉達(dá)發(fā)布Cosmos世界基礎(chǔ)模型（WFM），可以接受文本、圖像或視頻的提示，生成虛擬世界狀態(tài)，并針對(duì)自動(dòng)駕駛和機(jī)器人應(yīng)用實(shí)現(xiàn)內(nèi)容的生成。

與此同時(shí)，國(guó)內(nèi)廠商也在加速跟進(jìn)世界模型的搭建。

2024年7月，蔚來(lái)(4.1,0.02,0.49%)發(fā)布智能駕駛世界模型NWM。這是一個(gè)具有全量理解數(shù)據(jù)、長(zhǎng)時(shí)序推演和決策能力的智能駕駛世界模型，能夠在短時(shí)間內(nèi)推演出上百種可能發(fā)生的場(chǎng)景，并尋找到最優(yōu)決策。

理想(21.88,-0.45,-2.02%)汽車也在其智駕方案中引入了“重建+生成的世界模型”，利用3D高斯模型做場(chǎng)景重建，利用擴(kuò)散模型做場(chǎng)景生成，以重建仿真和生成仿真兩種技術(shù)路線，為智駕方案提供了“錯(cuò)題集”和“模擬題”。

如此看來(lái)，世界模型勢(shì)必將是汽車智能化的一道分水嶺，其在場(chǎng)景生成、模型訓(xùn)練、仿真測(cè)試、數(shù)據(jù)閉環(huán)等方面的獨(dú)特優(yōu)勢(shì)，將推動(dòng)包括自動(dòng)駕駛、機(jī)器人等在內(nèi)的人工智能應(yīng)用迎來(lái)“ChatGPT時(shí)刻”。

更輕的車，更“重”的云

歸根結(jié)底，自動(dòng)駕駛的競(jìng)爭(zhēng)最終將是算法、算力、數(shù)據(jù)的底層能力之爭(zhēng)，出現(xiàn)任何一塊短板，都將引發(fā)木桶效應(yīng)。

整體上看，自動(dòng)駕駛正呈現(xiàn)出由車端競(jìng)爭(zhēng)向云端競(jìng)爭(zhēng)遷移的趨勢(shì)，整個(gè)產(chǎn)業(yè)在更“輕”的同時(shí)也更“重”。

根據(jù)阿伯丁大學(xué)、MIT等機(jī)構(gòu)的研究者對(duì)算力需求的研究發(fā)現(xiàn)，在2010年之前模型訓(xùn)練所需的算力增長(zhǎng)符合摩爾定律，大約每20個(gè)月翻一番。自2010年初深度學(xué)習(xí)問(wèn)世以來(lái)，訓(xùn)練所需的算力快速增長(zhǎng)，大約每6個(gè)月翻一番。2015年末，隨著大規(guī)模機(jī)器學(xué)習(xí)模型的出現(xiàn)，訓(xùn)練算力的需求提高了10-100倍，出現(xiàn)了一種新的趨勢(shì)。

與目前用于生成式模型的計(jì)算量相比，訓(xùn)練和運(yùn)行世界模型需要龐大的算力，即使是Sora（可以視為早期的世界模型）也需要數(shù)千個(gè)GPU來(lái)訓(xùn)練和運(yùn)行，尤其是在其使用變得普及的情況下。

隨著模型的持續(xù)進(jìn)化，車端顯然無(wú)法承受算力之重，智能化的中心必然要從車端逐步遷移到云端。

通過(guò)建設(shè)云端強(qiáng)大的數(shù)據(jù)閉環(huán)和算力能力，并配合路側(cè)邊緣計(jì)算系統(tǒng)的數(shù)據(jù)感知融合、實(shí)時(shí)處理、計(jì)算和分析，車端因進(jìn)化迭代所面臨的技術(shù)與算力瓶頸被打破，“云”成為智能汽車進(jìn)化路上強(qiáng)大的底層基建。

而車端借助路側(cè)邊緣計(jì)算系統(tǒng)與云端數(shù)據(jù)中心，將車端算力、數(shù)據(jù)處理、軟硬件成本進(jìn)行后移，實(shí)現(xiàn)技術(shù)與成本的雙減負(fù)，智駕技術(shù)得以被普及到更低價(jià)格段的車型上。正在攀登高階自動(dòng)駕駛這座珠峰的玩家，能夠不斷通過(guò)“技術(shù)進(jìn)步→成本降低→產(chǎn)品落地”的循環(huán)，來(lái)獲得更大市場(chǎng)。

車端與路側(cè)和云端形成完整的閉環(huán)，車端和路側(cè)收集到海量的交通數(shù)據(jù)之后，云端利用大數(shù)據(jù)和AI算法，對(duì)數(shù)據(jù)進(jìn)行分析與挖掘，從中提取有價(jià)值的信息。

例如，通過(guò)對(duì)交通流量進(jìn)行數(shù)據(jù)分析，交管部門(mén)可以根據(jù)實(shí)時(shí)交通流和道路情況智能調(diào)整配時(shí)方案，提高道路通行效率。同時(shí)，車輛也能接收到車路云網(wǎng)絡(luò)的信息，提前了解道路上的障礙和危險(xiǎn)，從而采取相應(yīng)措施確保行車安全。

同時(shí)，車端和路側(cè)數(shù)據(jù)可以在云端集中進(jìn)行自動(dòng)駕駛模型的訓(xùn)練與仿真，再把模型數(shù)據(jù)發(fā)回車端，進(jìn)行OTA部署及更新，三端進(jìn)行協(xié)同互補(bǔ)，由此完成了自動(dòng)駕駛技術(shù)的迭代與進(jìn)化。

然而，世界模型的構(gòu)建和應(yīng)用也面臨著顯著的挑戰(zhàn)。

首先，環(huán)境模擬的準(zhǔn)確性極大地依賴于模型的復(fù)雜度和所擁有的數(shù)據(jù)質(zhì)量。要精確地預(yù)測(cè)復(fù)雜環(huán)境中的動(dòng)態(tài)變化，需要大量的數(shù)據(jù)和強(qiáng)大的計(jì)算資源，這對(duì)于資源有限的項(xiàng)目來(lái)說(shuō)可能是一個(gè)限制。

自動(dòng)駕駛是對(duì)人類駕駛行為的學(xué)習(xí)，人的駕駛能力有上限，所有自動(dòng)駕駛的安全邊界也有上限，自動(dòng)駕駛的安全必須高于人類才有意義，尤其是L4級(jí)自動(dòng)駕駛。所以必須要有高于人類駕駛行為的世界模型數(shù)據(jù)訓(xùn)練出來(lái)的系統(tǒng)才能優(yōu)于人類。

其次，構(gòu)建一個(gè)能夠泛化到多種不同環(huán)境的世界模型是極具挑戰(zhàn)性的，因?yàn)楝F(xiàn)實(shí)世界的復(fù)雜性和不可預(yù)測(cè)性遠(yuǎn)遠(yuǎn)超出了任何現(xiàn)有模型的處理能力。

世界模型和所有人工智能模型一樣，也會(huì)產(chǎn)生幻覺(jué)，并內(nèi)化訓(xùn)練數(shù)據(jù)中的偏見(jiàn)。世界模型的訓(xùn)練數(shù)據(jù)必須足夠廣泛，以涵蓋多樣化的情景，同時(shí)也要足夠具體，使模型能夠深入理解這些情景的細(xì)微差別。

盡管世界模型在理論上具有巨大潛力，但在實(shí)際應(yīng)用中仍然存在許多未知數(shù)。例如，如何確保模型的預(yù)測(cè)準(zhǔn)確性，如何處理模型可能的偏差，以及如何在不同的應(yīng)用場(chǎng)景中調(diào)整模型參數(shù)以適應(yīng)特定的需求等問(wèn)題都需要進(jìn)一步的研究和探索。

對(duì)于汽車智能化這個(gè)宏大主題來(lái)說(shuō)，行進(jìn)道路確實(shí)非常艱難。有時(shí)目標(biāo)足夠沉，問(wèn)題足夠多，才有這么多的技術(shù)被發(fā)明、被創(chuàng)造，而每個(gè)技術(shù)名詞的背后，都是成長(zhǎng)的印記，也是試錯(cuò)的痕跡。但正是一段段的技術(shù)死磕，才讓智能化逐漸有了一個(gè)更明朗的未來(lái)。

AI下一個(gè)必爭(zhēng)之地，會(huì)引發(fā)自動(dòng)駕駛“終局之戰(zhàn)”嗎？

AI下一個(gè)必爭(zhēng)之地，會(huì)引發(fā)自動(dòng)駕駛“終局之戰(zhàn)”嗎？