DeepSeek棄輝達改用華為晶片訓練受挫 新模型R2發布日期成問號
【編譯黃惠瑜/綜合外電】中國大陸人工智慧(AI)新創公司深度求索(DeepSeek)原本計畫以華為Ascend晶片訓練新一代AI模型R2,並曾預定在今年5月推出。然而,訓練過程屢遭技術問題卡關,公司最終改回採用輝達(Nvidia)晶片,產品上市時程因此延後,至今仍未確定。

英國科技媒體TechForge報導,自從DeepSeek今年1月成功推出R1模型後,就面臨來自北京當局的壓力。據3位接受《金融時報》採訪的人士透露,北京傳達給DeepSeek的訊息很明確:要使用華為的晶片,而不是輝達的晶片。
實際訓練新款R2模型時,消息人士表示,DeepSeek在使用華為AI晶片時遇到「持續性的技術問題」,導致整個專案陷入停擺。知情人士指出,這也是原定5月推出的R2模型被迫取消的主因。有兩位人士證實,華為甚至派出自己的工程團隊到DeepSeek辦公室,協助他們在華為晶片上啟動R2模型的訓練。但即使專家在場,仍無法完成任何成功的訓練。
DeepSeek遇到的技術問題之所以會造成這麼大的影響,是因為遭遇開發模型的核心難題,即AI訓練需要巨大的運算能力與穩定性,是最困難的部分;但AI推理則相對簡單,只需使用已訓練好的模型驅動AI應用。
不過,業界人士對於華為晶片達不到標準似乎都不覺得意外。事實上,華為執行長任正非今年曾表示,「美國是誇大了華為的成績,華為還沒有這麼厲害」,並指出其最先進的晶片仍落後一個世代。然而,北京仍積極推動科技巨擘優先使用國產硬體。《金融時報》報導,企業現在必須對訂購輝達的H20晶片提出正當理由。這是打造國產龍頭的一部分策略,但也可能迫使企業在技術上做出不如理想的選擇。
除了在使用華為晶片訓練時遇到的技術問題外,據報導,DeepSeek創辦人梁文峰也對團隊表示,他對R2模型的整體進展很不滿意。據說,他正督促團隊要有更高的目標,打造能夠讓公司保持在AI產業領先地位的產品。