廣告

一文看懂「世界模型」! 黃仁勳:有助實助AI自主機器人、自駕車

出版時間:2025/11/19 16:42
國際 熱搜話題
張翠蘭 文章
黃仁勳認為世界模型有助實現AI機器人的發展。圖為去年3月,黃仁勳與一整排機器人亮相。法新社 zoomin
黃仁勳認為世界模型有助實現AI機器人的發展。圖為去年3月,黃仁勳與一整排機器人亮相。法新社
分享 分享 連結 訂閱 APP

【編譯張翠蘭/綜合報導】以機器學習的開創性研究而聞名的Meta首席AI科學家楊立昆(Yann LeCun),近期大力推崇世界模型(world model),希望眾人摒棄目前建構人類水平AI的大型語言模型(LLM)。什麼是「世界模型」?許多先驅幾乎一致認為,這是AI邁向下一個重大飛躍的關鍵。AI晶片大廠輝達(Nvidia)執行長黃仁勳也表示,世界模型有助實現自主控制機器人、自動駕駛汽車等。

根據楊立昆的主張,他認為AI界必須將焦點從統計模式匹配,轉移到能夠推理、理解世界的模型。《華爾街日報》在近期一篇科技專欄文章指出,現今的AI只擅長書本知識,所知道的一切都來自現有的語言、圖像和影片。為了進一步進化,AI必須具備實際應用能力。這就需要「世界模型」。

關鍵在於讓AI能夠從環境中學習,並在其「大腦」中忠實呈現環境的抽象版本,就像人類和動物一樣。為此,開發者需要使用模擬世界來訓練AI。這就像透過玩電玩遊戲《跑車浪漫旅》(Gran Turismo)來學習駕駛,或透過「微軟模擬飛行」(Microsoft Flight Simulator)來學習飛行一樣。這些世界模型包含了規劃、行動和預測未來所需的一切要素,包括物理和時間。

Meta首席科學家楊立昆近日傳出與祖克柏就公司研發方向,理念不合。圖為楊立昆1月23日出席在達沃斯舉行的世界經濟論壇(WEF)年會。法新社 zoomin
Meta首席科學家楊立昆近日傳出與祖克柏就公司研發方向,理念不合。圖為楊立昆1月23日出席在達沃斯舉行的世界經濟論壇(WEF)年會。法新社

AI「教母」李飛飛創辦世界模型新創

AI先驅幾乎一致認為世界模型對於創建下一代人工智慧極為關鍵,對於未來創造超越人類的「通用人工智慧」(AGI)也至關重要。不僅楊立昆傳有意出走Meta,自立門戶成立專注研究世界模型的新創公司,史丹佛大學教授、AI「教母」李飛飛已籌集2.3億美元(約71.8億元台幣),用於創辦世界模型新創公司World Labs。

■相關新聞:
人物|Meta首席科學家楊立昆獨排眾議 LLM是死胡同!「這模型」才可推動AI發展
Meta大變動!首席AI科學家楊立昆傳出走 擬自立門戶研發「世界模型」

Google今年8月發表世界模型「Genie 3」,能根據使用者指令即時生成前所未有的動態3D虛擬環境,供使用者與AI代理互動。

目前人們關注的焦點是能夠實現大型語言模型(LLM)和ChatGPT的那種AI,但基於世界模型的AI正在前沿研究中迅速發展,並對現實世界產生潛在的巨大影響。

Google今年8月發表世界模型「Genie 3」,可生成能夠互動的3D虛擬世界。取自Google的X平台 zoomin
Google今年8月發表世界模型「Genie 3」,可生成能夠互動的3D虛擬世界。取自Google的X平台

創投公司Lightspeed合夥人兼投資人貝爾蘭茲(Moritz Baier-Lentz)表示,無人機戰爭、新型機器人以及自動駕駛汽車都將從中受益。輝達執行長黃仁勳也表示,世界模型有助於解鎖「物理AI」(physical AI),從而自主控制機器人、自動駕駛汽車等。

以下是綜整輝達對世界模型的說明:

什麼是世界模型?

世界模型是能夠理解真實世界動態、包括物理特性和空間屬性的神經網路。它們可以利用文字、圖像、影片和動作所的輸入數據,產生模擬真實物理環境的影片。

物理AI開發者使用世界模型產生自訂合成資料或下游AI模型,用於訓練機器人和自動駕駛汽車。

世界模型是如何建構?

舉例來說,為自動駕駛汽車等物理AI系統建立世界模型需要大量的真實世界數據,特別是來自不同地形和環境的影片和影像。收集這些數據需要petabyte(千兆位元組,PB)的資訊和數百萬小時的模擬素材,之後還需要數千小時的人工進行資料過濾和準備。

擁有數十億個參數的神經網路會分析這個龐大資料集,以創建和更新3D環境的內部表徵,使機器人能夠理解動態行為,預測動作和深度等變化,並對潛在事件做出反應。透過深度學習不斷改進,世界模型能夠適應新的場景並理解複雜的物理交互作用。

訓練這些大型模型需要耗費數以千萬計美元的GPU運算資源。

世界模型在現實世界有哪些應用?

▲自動駕駛汽車

世界模型利用預標記影片數據訓練自動駕駛(汽車 AV)系統,提升對車輛、行人和物體的辨識準確度。

模型可基於文字和視覺輸入生成預測性模擬場景,涵蓋多種交通模式、路況、天氣和光照條件,用於後訓練視覺-語言-動作模型,加速測試驗證流程。

▲機器人技術

世界模型能產生合成資料和預測環境狀態,協助機器人發展空間智慧。透過實體模擬器驅動的虛擬環境,機器人可安全高效地練習任務、快速測試並適應新情況。

這些模型能模擬物體互動、預測人類行為、優化路徑規劃,並透過多次模擬和回饋學習來強化決策能力。虛擬仿真大幅降低實體測試的風險,節省時間與成本。

▲影片分析

經多模態資料和高階推理訓練的世界模型,可對錄製及直播影片進行複雜分析,包括自然語言問答、自動摘要、物體檢測、事件定位及情境理解,能力超越傳統電腦視覺。模型還能生成極端情況的合成數據,協助訓練AI偵測關鍵事件。

應用範圍涵蓋工業與智慧城市:識別工安風險與不安全行為、提供事故因果分析、監控交通人流與公共安全、偵測環境危害,以及透過視覺檢查發現生產缺陷,全面提升安全性與營運效率。

 

◎加入小知族,喝免費咖啡

下載知新聞APP

⭐️ 即刻下載《知新聞》App!免費!

# 世界模型 # world model # 大型語言模型 # LLM # 楊立昆 # 黃仁勳 # 人形機器人 # 自駕車