一文看懂「世界模型」! 黃仁勳:有助實助AI自主機器人、自駕車
【編譯張翠蘭/綜合報導】以機器學習的開創性研究而聞名的Meta首席AI科學家楊立昆(Yann LeCun),近期大力推崇世界模型(world model),希望眾人摒棄目前建構人類水平AI的大型語言模型(LLM)。什麼是「世界模型」?許多先驅幾乎一致認為,這是AI邁向下一個重大飛躍的關鍵。AI晶片大廠輝達(Nvidia)執行長黃仁勳也表示,世界模型有助實現自主控制機器人、自動駕駛汽車等。
根據楊立昆的主張,他認為AI界必須將焦點從統計模式匹配,轉移到能夠推理、理解世界的模型。《華爾街日報》在近期一篇科技專欄文章指出,現今的AI只擅長書本知識,所知道的一切都來自現有的語言、圖像和影片。為了進一步進化,AI必須具備實際應用能力。這就需要「世界模型」。
關鍵在於讓AI能夠從環境中學習,並在其「大腦」中忠實呈現環境的抽象版本,就像人類和動物一樣。為此,開發者需要使用模擬世界來訓練AI。這就像透過玩電玩遊戲《跑車浪漫旅》(Gran Turismo)來學習駕駛,或透過「微軟模擬飛行」(Microsoft Flight Simulator)來學習飛行一樣。這些世界模型包含了規劃、行動和預測未來所需的一切要素,包括物理和時間。
AI「教母」李飛飛創辦世界模型新創
AI先驅幾乎一致認為世界模型對於創建下一代人工智慧極為關鍵,對於未來創造超越人類的「通用人工智慧」(AGI)也至關重要。不僅楊立昆傳有意出走Meta,自立門戶成立專注研究世界模型的新創公司,史丹佛大學教授、AI「教母」李飛飛已籌集2.3億美元(約71.8億元台幣),用於創辦世界模型新創公司World Labs。
■相關新聞:
人物|Meta首席科學家楊立昆獨排眾議 LLM是死胡同!「這模型」才可推動AI發展
Meta大變動!首席AI科學家楊立昆傳出走 擬自立門戶研發「世界模型」
Google今年8月發表世界模型「Genie 3」,能根據使用者指令即時生成前所未有的動態3D虛擬環境,供使用者與AI代理互動。
目前人們關注的焦點是能夠實現大型語言模型(LLM)和ChatGPT的那種AI,但基於世界模型的AI正在前沿研究中迅速發展,並對現實世界產生潛在的巨大影響。
創投公司Lightspeed合夥人兼投資人貝爾蘭茲(Moritz Baier-Lentz)表示,無人機戰爭、新型機器人以及自動駕駛汽車都將從中受益。輝達執行長黃仁勳也表示,世界模型有助於解鎖「物理AI」(physical AI),從而自主控制機器人、自動駕駛汽車等。
以下是綜整輝達對世界模型的說明:
什麼是世界模型?
世界模型是能夠理解真實世界動態、包括物理特性和空間屬性的神經網路。它們可以利用文字、圖像、影片和動作所的輸入數據,產生模擬真實物理環境的影片。
物理AI開發者使用世界模型產生自訂合成資料或下游AI模型,用於訓練機器人和自動駕駛汽車。
世界模型是如何建構?
舉例來說,為自動駕駛汽車等物理AI系統建立世界模型需要大量的真實世界數據,特別是來自不同地形和環境的影片和影像。收集這些數據需要petabyte(千兆位元組,PB)的資訊和數百萬小時的模擬素材,之後還需要數千小時的人工進行資料過濾和準備。
擁有數十億個參數的神經網路會分析這個龐大資料集,以創建和更新3D環境的內部表徵,使機器人能夠理解動態行為,預測動作和深度等變化,並對潛在事件做出反應。透過深度學習不斷改進,世界模型能夠適應新的場景並理解複雜的物理交互作用。
訓練這些大型模型需要耗費數以千萬計美元的GPU運算資源。
世界模型在現實世界有哪些應用?
▲自動駕駛汽車
世界模型利用預標記影片數據訓練自動駕駛(汽車 AV)系統,提升對車輛、行人和物體的辨識準確度。
模型可基於文字和視覺輸入生成預測性模擬場景,涵蓋多種交通模式、路況、天氣和光照條件,用於後訓練視覺-語言-動作模型,加速測試驗證流程。
▲機器人技術
世界模型能產生合成資料和預測環境狀態,協助機器人發展空間智慧。透過實體模擬器驅動的虛擬環境,機器人可安全高效地練習任務、快速測試並適應新情況。
這些模型能模擬物體互動、預測人類行為、優化路徑規劃,並透過多次模擬和回饋學習來強化決策能力。虛擬仿真大幅降低實體測試的風險,節省時間與成本。
▲影片分析
經多模態資料和高階推理訓練的世界模型,可對錄製及直播影片進行複雜分析,包括自然語言問答、自動摘要、物體檢測、事件定位及情境理解,能力超越傳統電腦視覺。模型還能生成極端情況的合成數據,協助訓練AI偵測關鍵事件。
應用範圍涵蓋工業與智慧城市:識別工安風險與不安全行為、提供事故因果分析、監控交通人流與公共安全、偵測環境危害,以及透過視覺檢查發現生產缺陷,全面提升安全性與營運效率。
