廣告

黃仁勳口中的「推論」時代是什麼 餐廳運作比喻法!秒懂AI運算新轉變

輝達執行長黃仁勳3月16日在加州舉行的GTC大會發表主題演講。法新社 zoomin
輝達執行長黃仁勳3月16日在加州舉行的GTC大會發表主題演講。法新社
分享 分享 連結 訂閱 APP

【編譯張翠蘭/綜合外電】美國人工智慧(AI)晶片龍頭輝達(Nvidia)執行長黃仁勳周一(3/16)在年度科技盛事「GTC大會」宣告,AI領域重心已進入「推論」(Inference)時代。什麼是「推論」?跟模型「訓練」有什麼不同?外媒以比喻餐廳的運作方式,提出簡而易懂的解釋。

黃仁勳在3月16日的GTC大會,宣布攜手專門設計推論晶片的Groq,共同推出強化版推論晶片。

《華爾街日報》報導,AI領域的投入重心已從訓練模型轉向使用模型。輝達透過銷售名為 圖形處理器(GPU)的晶片,成為全球市值最高的公司,這些晶片擁有模型訓練所需的強大處理能力,不過喬治城大學安全與新興科技中心研究AI的學者費爾德蓋斯(Jacob Feldgoise)表示,需要進行更多推論運算的公司,可以使用專門推論的晶片來提升效能。

輝達攜手Groq搶攻推論運算市場

Google、Cerebras Systems和SambaNova等生產專為推論設計晶片的製造商,正以越來越快的速度簽署數十億美元交易。以輝達為例,去年12月就斥資200億美元(約6387億元台幣)獲得Groq的技術授權並挖走頂尖人才,如今推出自主研發的推論專用處理器。

推論運算(inference computing)究竟是什麼呢?它與訓練(training)所需的處理有何不同?為什麼市場需求如此果斷轉向推論?這對市場又意味著什麼?

「推論」如何運作?

《華爾街日報》解釋,可以把人工智慧想像成一家餐廳。AI模型就是廚師。在經過一段時間的密集訓練,學習成百上千種、甚至數十億種食譜和烹飪技巧後,它就可以開始接受顧客的點餐。

而「推論」就是餐廳的日常運作。顧客下單可以理解為「透過聊天機器人提問」,廚師則準備客人餐點,也就是「聊天機器人的回覆」。

推論包含兩個階段,分別是「預填」(Prefill)和「解碼」(decode)。預填是指使用者輸入提示訊息,迫使模型透過處理提示訊息中的每個單字、符號或圖像來解讀查詢。而解碼則是指模型利用訓練中學習到的所有知識,對查詢做出回應的過程。

推論是如何運作的?
預填顧客下單;廚師讀取並理解訂單
解碼廚師利用大量的訓練數據,為每道菜創建客製化食譜,然後收集食材並烹飪
以餐廳運作模式,來示範說明「推論」如何運作。圖為生成式AI zoomin
以餐廳運作模式,來示範說明「推論」如何運作。圖為生成式AI

「代幣」又是什麼?

推論兩個階段對晶片的屬性要求不同:預填需要更強大的處理能力,而解碼需要更多內部儲存記憶體,部分原因是解碼需要調用所有已積累的知識,才能為用戶提供準確、新鮮的「代幣」(token)。

代幣是用於處理查詢並產生回應的基本資料單元。通常1個代幣相當於一個英文單字的3/4。一個簡單的聊天機器人查詢,例如「今天天氣怎麼樣?」,會被模型解讀為6到8個代幣。

模型通常一次產生1個代幣,並且必須以正確順序輸出每個代幣,答案才能有意義。會計軟體、旅行預訂服務以及圖像生成器等試圖把AI工具貨幣化的公司,都非常關注成本指標,例如每秒每瓦的代幣數或每秒每美元的代幣數。

業者:降低推論成本是現在的關鍵

晶片製造商GlobalFoundries執行長布林(Tim Breen)表示,這使得推論晶片高效提供結果的能力極為重要,「降低推論成本是現在的關鍵」。

AI模型訓練需要長時間處理大量數據,因此執行訓練的晶片必須具備強大處理能力,而資料中心也必須擁有充足能源以及用於冷卻晶片的水冷系統。訓練也需要儲存記憶體,但如果GPU記憶體不足,它可以將部分處理任務分配給其他晶片,或等待現有記憶體釋放。

而相比之下,推論過程是按需要執行的,只需幾秒鐘,而不是幾星期。矽谷晶片設計新創SambaNova執行長梁欽(Rodrigo Liang)說:「十秒鐘,人們就已經在手機上敲擊鍵盤,然後去做其他事情了。」

知嚴選

⭐️ 即刻下載!無蓋版廣告純淨版《知新聞》App

# 輝達 # 黃仁勳 # 推論 # Inference