廣告

分析|Google TurboQuant迎來DeepSeek時刻 狂砍記憶體用量!這群人受益最大

就像DeepSeek並沒有阻止對AI晶片的大量投資,觀察人士認為TurboQuant很可能反而會讓AI投資持續成長。美聯社 zoomin
就像DeepSeek並沒有阻止對AI晶片的大量投資,觀察人士認為TurboQuant很可能反而會讓AI投資持續成長。美聯社
分享 分享 連結 訂閱 APP

【編譯于倩若/綜合外電】隨著記憶體這類零組件價格飆漲,帶動AI(人工智慧)的成本節節攀升,Google上月提出名為TurboQuant的技術創新作為回應。TurboQuant可說是AI另一個「DeepSeek時刻」,是一項大幅降低AI成本的深層嘗試,可能透過減少AI的記憶體使用量帶來長遠效益,讓模型變得更有效率。

TurboQuant問世後,全球記憶體股經歷了大跌及劇烈震盪。針對不斷飆升的AI成本,它「能」與「不能」帶來哪些改變?《知新聞》帶您一文看懂。

Google TurboQuant 技術關鍵數據與影響分析

TurboQuant 效能表現
記憶體需求縮小至少 6 倍 (適用於 Llama 3.1-8B)
量化精度壓縮至 3 bits 仍維持完整準確度
無需重訓即插即用,不影響模型準確度
主要受惠者本地端 AI 伺服器開發者 (如 MacBook / Mac mini 用戶)

📌 本文摘要重點

(AI 摘要說明)
1 TurboQuant透過即時量化KV Cache,在維持模型準確度前提下,將記憶體需求大幅縮減至原有的6分之1。
2 技術核心在於PolarQuant與QJL兩階段處理,解決了推論階段KV Cache隨上下文視窗擴大而膨脹的瓶頸。
3 分析師指出,技術效率提升將轉化為模型規模擴張,而非降低整體AI硬體投資需求,維持市場成長趨勢。

效率越高、投資越多?TurboQuant與「傑文斯悖論」下的AI發展

即便如此,就像DeepSeek並沒有阻止對AI晶片的大量投資,觀察人士認為TurboQuant很可能反而會讓AI投資持續成長。這正是所謂的「傑文斯悖論」(Jevons paradox),也就是當某樣東西變得更有效率時,反而會讓整體使用量增加。

不過,TurboQuant這種方法,確實有機會透過降低大型語言模型對硬體的需求,讓AI更容易在本地端運行。

Google TurboQuant有機會透過降低大型語言模型對硬體的需求,讓AI更容易在本地端運行。美聯社 zoomin
Google TurboQuant有機會透過降低大型語言模型對硬體的需求,讓AI更容易在本地端運行。美聯社

記憶體越多,成本越高

據《ZDNET》報導,目前AI最大成本來源,而且在可預見的未來很可能仍是如此,就是對記憶體與儲存技術的需求持續增加。AI極度依賴資料,讓記憶體與儲存的重要性達到電腦史上前所未有的程度。

TurboQuant最早是在1年前由Google研究人員於論文中提出,它運用量化(quantization)技術,來減少表示資料所需的位元數。量化本質上是一種資料壓縮,用更少的位元來表示相同的數值。

《ZDNET》資深科技記者Tiernan Ray指出,在TurboQuant的情境中,重點放在所謂「鍵值快取」(key-value cache,簡稱KV cache),這是AI系統中最吃記憶體的部分之一。

在對Google Gemini這樣的聊天機器人輸入文字時,AI必須把你的輸入與一組類似資料庫的參考資料進行比對。輸入的內容稱為查詢(query),會與記憶體中的資料(稱為鍵,key)做比對,找出數值上的匹配程度,本質上就是一個「相似度分數」。接著系統會利用這個key,從記憶體中取出對應的內容(稱為值,value),也就是最後回覆給你的文字。

一般情況下,每次輸入時,AI模型都必須重新計算新的key和value,這會拖慢整體速度。為了加快處理,系統會把最近用過的key和value存在記憶體中的KV cache。

但這個快取本身也會變成問題:你使用模型越多,KV cache就會佔用越多記憶體。Google的主要作者Amir Zandieh與團隊指出,這種擴張在記憶體使用與運算速度上都是重大瓶頸,尤其對於長上下文模型更是如此。

更麻煩的是,AI模型的key與value變得越來越複雜,也就是所謂的「上下文視窗」(context window)越來越大。這讓模型有更多搜尋選項,理論上能提升準確度。例如目前版本的Gemini 3已將上下文視窗提升到100萬tokens,而像OpenAI的GPT-4這類先前的先進模型,只有將近3.28萬tokens。

但上下文視窗越大,KV cache需要的記憶體也會跟著暴增。

Amir Zandieh(圖)研究團隊發表TurboQuant,被視為AI另一個「DeepSeek時刻」。取自LinkedIn zoomin
Amir Zandieh(圖)研究團隊發表TurboQuant,被視為AI另一個「DeepSeek時刻」。取自LinkedIn

讓量化可以即時運作

解決KV cache膨脹的方法,就是對key和value進行量化,讓整體佔用空間變小。Amir Zandieh團隊在部落格中表示,TurboQuant的壓縮效果是「非常巨大」的。他們強調:「在不犧牲準確度的前提下縮小KV cache,至關重要。」

《ZDNET》指出,量化其實早就被Google等公司用來精簡神經網路,但TurboQuant的新意在於,它可以「即時量化」。過去的方法是在模型部署前(編譯階段)就先壓縮好,但這樣並不夠。

因為KV cache是在推論階段持續更新的,也就是使用者與AI互動時,key和value會不斷改變。因此量化必須又快又準,才能一邊維持小體積,一邊保持資料最新。

TurboQuant裡的「Turbo」就是在強調,它比傳統編譯時量化快得多。

TurboQuant是一項大幅降低AI成本的深層嘗試,可能透過減少AI的記憶體使用量帶來長遠效益,讓模型變得更有效率。法新社 zoomin
TurboQuant是一項大幅降低AI成本的深層嘗試,可能透過減少AI的記憶體使用量帶來長遠效益,讓模型變得更有效率。法新社

2階段處理方式

TurboQuant採用2個階段:

第1階段,壓縮query和key。這可以用幾何方式來做,因為它們本質上是向量,可以在X-Y平面上表示成一條線並進行旋轉。這個方法稱為「PolarQuant」。

透過隨機嘗試不同的旋轉方式,再還原回原始向量,他們找到能維持準確度但使用更少位元的表示法。

不過,壓縮後的向量在做query與key的比對時,仍會產生誤差,因此他們加入第2個方法 QJL。QJL的做法是保留其中一個向量不壓縮,作為提升準確度的校正機制。

測試成果:準確度不變、記憶體砍6倍

研究團隊將TurboQuant套用在Meta開源模型Llama 3.1-8B上,結果顯示:

在所有測試指標中都維持完整準確度,同時將KV cache的記憶體需求縮小至少6倍。這代表快取需求直接減少到原本的6分之1

與其他壓縮KV cache的方法(例如DeepSeek去年透過限制搜尋範圍來加速推論)相比,TurboQuant的做法不同。

在另一組測試中,使用Google的Gemma模型以及法國AI新創Mistral的模型,結果顯示:

TurboQuant可以把KV cache量化到僅3 bits,而且不需要重新訓練或微調,也不會影響模型準確度,同時執行速度還比原始模型更快。

研究人員表示,這種方法「實作非常高效,執行時幾乎沒有額外負擔」。

TurboQuant測試成果顯示維持完整準確度,同時將KV cache的記憶體需求縮小至少6倍,代表快取需求直接減少到原本的6分之1。法新社 zoomin
TurboQuant測試成果顯示維持完整準確度,同時將KV cache的記憶體需求縮小至少6倍,代表快取需求直接減少到原本的6分之1。法新社

AI會變便宜嗎?分析師指TurboQuant只會讓AI的使用更有效率,而不是降低總需求

Amir Zandieh團隊認為,TurboQuant對AI推論在實際產品中的應用會有重大影響。他們指出,隨著AI被整合進各種產品(從大型語言模型到語意搜尋),這種基礎的向量量化技術,將變得越來越關鍵。

在代理型AI(agentic AI)的時代,像OpenClaw這類可以自主運作的程式,AI的效能不只取決於KV cache。像資料庫讀寫等其他記憶體操作,也會影響長期效率。

不過,關注AI晶片市場的人士指出,就像DeepSeek的效率提升沒有減緩AI投資一樣,TurboQuant也不太可能改變這個趨勢

美銀美林科技分析師Vivek Arya在寫給客戶的報告中表示,TurboQuant只會讓AI的使用更有效率,而不是降低總需求。他寫道:「記憶體效率提升6倍,很可能會轉化為模型規模(準確度)或上下文長度(KV cache配置)提升6倍,而不是記憶體需求下降6倍。」

本地部署一大福音:TurboQuant讓MacBook Neo與Mac mini也能打造平價AI伺服器

不過,TurboQuant確實能讓某些AI應用變得更省成本,特別是在本地部署的情境下

舉例來說,當KV cache持續膨脹、上下文視窗變長時,如果是在硬體預算有限的環境中執行AI模型,這些負擔會變得比較可控。

對想用MacBook Neo或Mac mini這類設備,來打造平價本地AI伺服器的OpenClaw使用者來說,會是一大福音

TurboQuant對想用MacBook Neo或Mac mini這類設備,來打造平價本地AI伺服器的OpenClaw使用者來說,會是一大福音。取自OpenClaw官網 zoomin
TurboQuant對想用MacBook Neo或Mac mini這類設備,來打造平價本地AI伺服器的OpenClaw使用者來說,會是一大福音。取自OpenClaw官網

知嚴選

⭐️ 即刻下載!無蓋版廣告純淨版《知新聞》App

# TurboQuant # KV cache # Google # DeepSeek # OpenClaw # 記憶體