文|極智GeeTech
“機器人的ChatGPT時刻即將到來。與大語言模型一樣,世界基礎模型對于推進機器人和自動駕駛汽車的開發(fā)至關重要!
在CES 2025上,黃仁勛身穿新皮衣,除了推出炸裂的RTX 5090之外,還宣布入局人工智能領域當下最關鍵的方向——世界模型。
此次英偉達發(fā)布的Cosmos世界基礎模型專為物理交互、模擬工業(yè)環(huán)境和駕駛環(huán)境的高質量生成而構建,可以生成逼真的視頻用于訓練機器人和自動駕駛汽車,并通過創(chuàng)建合成訓練數(shù)據(jù)幫助機器人和汽車理解物理世界。
除了英偉達,谷歌(196.98,5.93,3.10%)以及不少初創(chuàng)企業(yè)也在追逐世界模型,谷歌旗下DeepMind組建世界模型研究團隊,被視為谷歌在通用人工智能(AGI)領域與競爭對手展開角逐的重要一步。此外,“AI教母”李飛飛的World Labs、初創(chuàng)公司Decart、Odyssey也都涉足其中。
北京智源人工智能研究院近日發(fā)布的“2025十大AI技術趨勢”認為,更注重“因果”推理的世界模型有望成為多模態(tài)大模型的下一階段。
世界模型不僅引得全球科技企業(yè)競相逐鹿,還被業(yè)內視為人工智能領域的下一個關鍵突破。世界模型為何如此重要?對于自動駕駛等科技領域將觸發(fā)怎樣的新變革?
人工智能下一個“必爭之地”
在現(xiàn)實世界中,技術也是可以高度重構的,隨著時間的推移、新技術的出現(xiàn),未來在不斷改進、不斷進化。
自2022年底,隨著OpenAI發(fā)布大語言模型ChatGPT,生成式AI大模型便逐漸演化出了兩條路徑:語言模型和世界模型。
語言模型繼續(xù)在數(shù)字世界深耕,從單一的文本模態(tài)走向包含圖片、視頻在內的多模態(tài),使其具備了文生圖、看圖說話、圖生圖、文生視頻的能力,典型代表就是Sora和GPT4-o。
不過,語言模型最受爭議的挑戰(zhàn)是它們產(chǎn)生幻覺的傾向,會捏造參考資料和事實,或在邏輯推斷、因果推理等方面顛三倒四、生成毫無意義的內容的情況,這些幻覺都源于它們缺乏對事件之間因果關系的了解。
這也表明,語言模型雖然善于從數(shù)據(jù)中識別和提取因果關系,但缺乏自己主動推理新的因果場景的能力。它們具備通過觀察進行因果歸納的能力,但不具備因果演繹的能力。
世界模型則從數(shù)字世界走向物理世界,從一維形式的數(shù)字智能走向三維形式的空間智能。它通過預訓練擴展視頻和多模態(tài)數(shù)據(jù),并集成多模態(tài)語言模型,可用于為視頻游戲和電影創(chuàng)建實時交互式媒體環(huán)境,以及為機器人和其他人工智能系統(tǒng)創(chuàng)建逼真的訓練場景等諸多場景,被業(yè)界認為是通往通用人工智能(AGI,指機器能夠理解或學習人類能夠執(zhí)行的任何智力任務)的關鍵路徑。
追溯一下,“World Models”(世界模型)最早出現(xiàn)在機器學習領域。
2018年,機器學習頂級會議NeurIPS收錄的《Recurrent World Models Facilitate Policy Evolution》論文,以認知科學中的心智模型(Mental Model)來類比世界模型,認為其參與了人類的認知、推理、決策過程。其中,最核心的能力——反事實推理(Counterfactual Reasoning),是一種人類天然具備的能力。
2024年2月,OpenAI發(fā)布了震驚世界的文生視頻大模型Sora,它可以根據(jù)文本自動生成一段60秒視頻,這成為世界模型的一個具象體現(xiàn)。
傳統(tǒng)的生成式模型或許能夠準確預測籃球會彈跳,但并不真正理解其中原因,就像大語言模型實際上是基于神經(jīng)網(wǎng)絡的概率推理,給出最可能符合實際預期的答案,而非真正理解詞語和短語背后的意義。然而,具有基本物理認知的世界模型將更善于展現(xiàn)“籃球的真實彈跳”。
相比大語言模型還停留在理解人類語義階段,世界模型則以三維視角開始理解真實的物理世界。
關于理解真實世界的物理法則,其實并沒有想象得那么容易。比如,現(xiàn)在讓你去想象手掌時,你都能準確且毫不費力地想象出來,但是在目前人工智能的制作中,會經(jīng)常會出現(xiàn)多根手指或連指的現(xiàn)象。
此前,Meta首席人工智能科學家楊立昆(Yann LeCun)就明確表示,基于文本提示生成的逼真視頻并不代表模型真正理解了物理世界。之后更是直言,像Sora這樣通過生成像素來建模世界的方式注定要失敗。
世界模型正在試圖超越數(shù)據(jù),模擬人類的潛意識推理。例如,棒球擊球手能在毫秒內決定如何揮棒,是因為他們可以本能地預測球的軌跡。這種潛意識推理能力被認為是實現(xiàn)人類級智能的先決條件之一。
為此,世界模型通過在大量的照片、音頻、視頻和文本數(shù)據(jù)上進行訓練,創(chuàng)建對世界運作方式的內部表征,并能推理行為的后果,這使它們能更好地理解和模擬現(xiàn)實世界的規(guī)律。
當前,人工智能領域對世界模型的需求主要集中在兩個方面。
第一,對環(huán)境的深度理解和建模。通過建立準確的世界模型,人工智能系統(tǒng)可以更好地感知和理解外部世界,從而做出更加準確和智能的決策。當前,人工智能領域在這一方面的研究主要集中在強化學習和深度學習領域,通過神經(jīng)網(wǎng)絡等技術來構建復雜的世界模型,并不斷優(yōu)化和改進模型的性能。
第二,是反事實推理的能力提升。反事實推理,也就是回答“如果……會發(fā)生什么?”問題,這是當前人工智能系統(tǒng)能力的一個短板。通過提升世界模型的反事實推理能力,人工智能系統(tǒng)可以更好地預測不同決策的可能結果,從而做出更加智能和合理的決策。人工智能領域在這一方面的研究集中在改進模型的預測能力和優(yōu)化推理算法等方面,以提升模型的整體性能和效果。
自動駕駛迎來“關鍵一戰(zhàn)”
對于世界模型是否會成為自動駕駛的終極之戰(zhàn),目前下結論為時尚早,不過可以肯定的是,一旦這一技術趨于成熟,將對自動駕駛的智能化水平帶來“質”的躍遷。
自動駕駛的飛速發(fā)展,對數(shù)據(jù)有了進一步要求。車企需要豐富、復雜場景來錘煉汽車的自動駕駛能力,然而現(xiàn)實生活中數(shù)據(jù)采集成本居高不下,部分危險場景難以采集,長尾場景稀缺,影響自動駕駛進一步發(fā)展。
因此,采用合成數(shù)據(jù)來助力自動駕駛模型訓練成了有效的解決方案,世界模型正是這樣的場景生成和預測器,能夠為自動駕駛模型訓練提供豐富虛擬場景。
過去,多模塊化的智能駕駛方案可以對感知和規(guī)控模塊分別進行驗證,在感知端層面,工程師可以將感知的結果和帶有標注的真實世界狀況直接對比,進行開環(huán)監(jiān)測;在規(guī)控模塊,可以依靠仿真工具將世界的各類場景輸入,通過環(huán)境的變換來給模型反饋,進行閉環(huán)的驗證規(guī)控算法性能。
而端到端智駕方案將感知、預測、規(guī)劃、控制集成一體,這就要求仿真工具既可以逼真地還原外部環(huán)境,同時又能給模型反饋實現(xiàn)閉環(huán)測試,這是世界模型可以實現(xiàn)的。
雖然國內汽車行業(yè)現(xiàn)在的關注焦點停留在端到端,但業(yè)內共識是,從“兩段式”逐步過渡到“一段式”端到端,最終實現(xiàn)世界模型的應用,是實現(xiàn)高階自動駕駛的一條必經(jīng)之路。
如果梳理自動駕駛技術的發(fā)展路線,就會發(fā)現(xiàn)一個非常有意思的事情。所謂“功夫在詩外”,這幾年所有對自動駕駛發(fā)展產(chǎn)生推動的技術其實都不源于自動駕駛,而是人工智能,包括BEV+Transformer、占用網(wǎng)絡OCC、端到端、世界模型,自動駕駛的本質就是人工智能的一個具身智能體現(xiàn)。一定要把自動駕駛放到整個人工智能領域來綜合看待,如果只盯著自動駕駛,這樣就永遠搞不好自動駕駛。
自動駕駛發(fā)展這么多年,都是在做空間理解的升級,就是讓系統(tǒng)更理解周圍的世界。
最早是通過提升傳感器硬件能力,后來是算法升級,通過鳥瞰視圖(BEV,Bird’s-Eye-View)進行視角轉換,利用占用網(wǎng)絡(OCC,Occupancy Network)將2D轉換為3D,到現(xiàn)在軟硬件能力都已經(jīng)出現(xiàn)瓶頸,但是極端場景數(shù)據(jù)的獲取卻成了大難題。
目前比較常規(guī)的做法有兩個,一個是3D重建,但這樣的做法成本高、效率低,并不實用;另一個就是仿真,但是仿真的數(shù)據(jù)根本無法“還原”真實數(shù)據(jù),對自動駕駛的幫助有限。
于是,世界模型通過自己“造數(shù)據(jù)”,成為提升自動駕駛訓練效率的有效方式之一。其不僅可以通過生成式大模型生成帶有預測性質的視頻數(shù)據(jù),實現(xiàn)Corner Case多樣化訓練,還可以采用強化學習的方法認識復雜駕駛環(huán)境,從視頻輸出駕駛決策。
世界模型將過去由人向人工智能主動提出問題,人工智能被動向訪問者給予反饋的模式,進化為交互式人工智能的新階段,使人工智能能夠主動感知周圍環(huán)境,并主動提問,從而變成一個可以自主行動的實體。
2023年,特斯拉(428.22,31.86,8.04%)自動駕駛負責人在CVPR上介紹了通用世界模型,該模型可以通過過往的視頻片段和行動提示,生成“可能的未來”全新視頻。
Wayve也在2023年發(fā)布了GAIA-1模型,可以依靠視頻、文本和動作的輸入生成逼真的視頻,能夠生成分鐘級的視頻以及多種合理的未來場景,幫助自動駕駛模型的訓練和仿真。
在CES 2025上,英偉達發(fā)布Cosmos世界基礎模型(WFM),可以接受文本、圖像或視頻的提示,生成虛擬世界狀態(tài),并針對自動駕駛和機器人應用實現(xiàn)內容的生成。
與此同時,國內廠商也在加速跟進世界模型的搭建。
2024年7月,蔚來(4.1,0.02,0.49%)發(fā)布智能駕駛世界模型NWM。這是一個具有全量理解數(shù)據(jù)、長時序推演和決策能力的智能駕駛世界模型,能夠在短時間內推演出上百種可能發(fā)生的場景,并尋找到最優(yōu)決策。
理想(21.88,-0.45,-2.02%)汽車也在其智駕方案中引入了“重建+生成的世界模型”,利用3D高斯模型做場景重建,利用擴散模型做場景生成,以重建仿真和生成仿真兩種技術路線,為智駕方案提供了“錯題集”和“模擬題”。
如此看來,世界模型勢必將是汽車智能化的一道分水嶺,其在場景生成、模型訓練、仿真測試、數(shù)據(jù)閉環(huán)等方面的獨特優(yōu)勢,將推動包括自動駕駛、機器人等在內的人工智能應用迎來“ChatGPT時刻”。
更輕的車,更“重”的云
歸根結底,自動駕駛的競爭最終將是算法、算力、數(shù)據(jù)的底層能力之爭,出現(xiàn)任何一塊短板,都將引發(fā)木桶效應。
整體上看,自動駕駛正呈現(xiàn)出由車端競爭向云端競爭遷移的趨勢,整個產(chǎn)業(yè)在更“輕”的同時也更“重”。
根據(jù)阿伯丁大學、MIT等機構的研究者對算力需求的研究發(fā)現(xiàn),在2010年之前模型訓練所需的算力增長符合摩爾定律,大約每20個月翻一番。自2010年初深度學習問世以來,訓練所需的算力快速增長,大約每6個月翻一番。2015年末,隨著大規(guī)模機器學習模型的出現(xiàn),訓練算力的需求提高了10-100倍,出現(xiàn)了一種新的趨勢。
與目前用于生成式模型的計算量相比,訓練和運行世界模型需要龐大的算力,即使是Sora(可以視為早期的世界模型)也需要數(shù)千個GPU來訓練和運行,尤其是在其使用變得普及的情況下。
隨著模型的持續(xù)進化,車端顯然無法承受算力之重,智能化的中心必然要從車端逐步遷移到云端。
通過建設云端強大的數(shù)據(jù)閉環(huán)和算力能力,并配合路側邊緣計算系統(tǒng)的數(shù)據(jù)感知融合、實時處理、計算和分析,車端因進化迭代所面臨的技術與算力瓶頸被打破,“云”成為智能汽車進化路上強大的底層基建。
而車端借助路側邊緣計算系統(tǒng)與云端數(shù)據(jù)中心,將車端算力、數(shù)據(jù)處理、軟硬件成本進行后移,實現(xiàn)技術與成本的雙減負,智駕技術得以被普及到更低價格段的車型上。正在攀登高階自動駕駛這座珠峰的玩家,能夠不斷通過“技術進步→成本降低→產(chǎn)品落地”的循環(huán),來獲得更大市場。
車端與路側和云端形成完整的閉環(huán),車端和路側收集到海量的交通數(shù)據(jù)之后,云端利用大數(shù)據(jù)和AI算法,對數(shù)據(jù)進行分析與挖掘,從中提取有價值的信息。
例如,通過對交通流量進行數(shù)據(jù)分析,交管部門可以根據(jù)實時交通流和道路情況智能調整配時方案,提高道路通行效率。同時,車輛也能接收到車路云網(wǎng)絡的信息,提前了解道路上的障礙和危險,從而采取相應措施確保行車安全。
同時,車端和路側數(shù)據(jù)可以在云端集中進行自動駕駛模型的訓練與仿真,再把模型數(shù)據(jù)發(fā)回車端,進行OTA部署及更新,三端進行協(xié)同互補,由此完成了自動駕駛技術的迭代與進化。
然而,世界模型的構建和應用也面臨著顯著的挑戰(zhàn)。
首先,環(huán)境模擬的準確性極大地依賴于模型的復雜度和所擁有的數(shù)據(jù)質量。要精確地預測復雜環(huán)境中的動態(tài)變化,需要大量的數(shù)據(jù)和強大的計算資源,這對于資源有限的項目來說可能是一個限制。
自動駕駛是對人類駕駛行為的學習,人的駕駛能力有上限,所有自動駕駛的安全邊界也有上限,自動駕駛的安全必須高于人類才有意義,尤其是L4級自動駕駛。所以必須要有高于人類駕駛行為的世界模型數(shù)據(jù)訓練出來的系統(tǒng)才能優(yōu)于人類。
其次,構建一個能夠泛化到多種不同環(huán)境的世界模型是極具挑戰(zhàn)性的,因為現(xiàn)實世界的復雜性和不可預測性遠遠超出了任何現(xiàn)有模型的處理能力。
世界模型和所有人工智能模型一樣,也會產(chǎn)生幻覺,并內化訓練數(shù)據(jù)中的偏見。世界模型的訓練數(shù)據(jù)必須足夠廣泛,以涵蓋多樣化的情景,同時也要足夠具體,使模型能夠深入理解這些情景的細微差別。
盡管世界模型在理論上具有巨大潛力,但在實際應用中仍然存在許多未知數(shù)。例如,如何確保模型的預測準確性,如何處理模型可能的偏差,以及如何在不同的應用場景中調整模型參數(shù)以適應特定的需求等問題都需要進一步的研究和探索。
對于汽車智能化這個宏大主題來說,行進道路確實非常艱難。有時目標足夠沉,問題足夠多,才有這么多的技術被發(fā)明、被創(chuàng)造,而每個技術名詞的背后,都是成長的印記,也是試錯的痕跡。但正是一段段的技術死磕,才讓智能化逐漸有了一個更明朗的未來。