黃仁勳「買愈多省愈多」說法成真 輝達GB200 NVL72提供15倍投報率

【記者蕭文康/台北報導】NVIDIA(輝達)執行長黃仁勳曾多次為自家產品推銷說「買愈多省愈多」,現旗下Blackwell平台橫掃全新 SemiAnalysis InferenceMAX v1基準測試,展現最高效能與最佳整體效率。其中,最佳投資報酬方面,NVIDIA GB200 NVL72帶來無可比擬的 AI工廠經濟效益,投資 500萬美元可創造7500萬美元的 DSR1詞元收益,相當提供 15倍投資報酬率。而最低總擁有成本方面,NVIDIA B200的軟體最佳化在 gpt-oss上實現每百萬詞元2美分,於2個月內降低詞元成本5倍。
投資500萬美元於NVIDIA GB200 NVL72系統,可創造7500萬美元的詞元收益,帶來15倍投資報酬率
另外,在最佳輸送量與互動性方面:搭載最新 NVIDIA TensorRT-LLM技術架構的 NVIDIA B200,在gpt-oss 上可達到每GPU每秒60000個詞元、每使用者每秒1000個詞元的效能水準。
全新的獨立 InferenceMAX v1是首個在真實場景中衡量總運算成本的基準測試。結果顯示,NVIDIA Blackwell平台橫掃全場,為AI工廠實現無與倫比的效能與最佳整體效率。
NVIDIA超大規模與高效能運算副總裁Ian Buck表示,推論是 AI每天創造價值的關鍵。這些結果證明,NVIDIA的全端策略提供客戶在大規模部署AI時所需的效能與效率。

為什麼這一類型的基準測試如此重要?
因為現代AI不僅關乎速度,更關乎效率與經濟規模。隨著模型從一次回覆轉變為多步驟推理與工具使用,每次查詢生成的詞元數大量增加,顯著推升了運算需求。
NVIDIA與OpenAI(gpt-oss 120B)、Meta(Llama 3 70B)及DeepSeek AI(DeepSeek R1)在開源領域的合作,展示了社群驅動模型如何推進推理與效率的最先進成果。透過與這些領先模型開發者及開源社群合作,NVIDIA確保最新模型能針對全球最大規模的AI推論基礎設施進行最佳化。這反映NVIDIA對開放生態系的承諾,共享創新以為所有人加速進展。
軟體最佳化持續推升效能
NVIDIA透過硬體與軟體協同設計來持續提升效能。gpt-oss-120B在搭載NVIDIA TensorRT-LLM函式庫的NVIDIA DGX Blackwell B200系統上,初始效能即為業界領先,但 NVIDIA團隊與社群進一步對針對開源大型語言模型,大幅最佳化了 TensorRT LLM的效能表現。
透過先進的平行化技術,它運用B200系統與NVIDIA NVLink Switch的1800GB/s雙向頻寬,大幅提升gpt-oss-120B模型的效能。創新不僅於此。全新發布的gpt-oss-120b-Eagle3-v2模型引入「推測式解碼 (speculative decoding)」,這個聰明的方法能一次預測多個詞元,降低延遲並提升速度,將每使用者輸送量提升3倍,達每用戶每秒100詞元(TPS / user),每GPU速度從6000提升至30000詞元。
對於Llama 3.3 70B等密集 AI模型,由於其龐大參數需於推論中同時運作而需要大量的運算資源,NVIDIA Blackwell B200在InferenceMAX v1基準測試中創下全新效能標準。

效能效率帶來價值
每瓦輸出詞元量、每百萬詞元成本與每使用者TPS等指標與輸送量同等重要。對功率受限的AI工廠而言,Blackwell每兆瓦輸送量比上一代提升10倍,能轉化為更的高詞元收益。每詞元成本是衡量AI模型效率的關鍵,直接影響營運支出。NVIDIA Blackwell架構將每百萬詞元成本較上一代降低15倍,帶來可觀節省並推動更廣泛的AI應用。
多維效能
InferenceMAX採用帕雷托前沿(Pareto frontier)展示資料中心輸送量與回應性等因素間的最佳權衡,並比較效能。但這不僅是一張圖表,它展現NVIDIA Blackwell如何在成本、能源效率、輸送量與回應性等考量中取得平衡,從而在真實工作負載中實現最高投資報酬率。
只針對單一場景最佳化的系統雖可能在孤立測試中達巔峰,但經濟性無法擴展。Blackwell的全端設計在實際生產中提供關鍵的效率與價值。

成就關鍵
Blackwell的領先地位來自極致的硬體與軟體協同設計。這是一套為速度、效率與規模而生的全端架構:Blackwell架構特色包括:NVFP4低精度格式,在不犧牲準確度的情況下提升效率。
第五代NVIDIA NVLink,連接72個Blackwell GPU如同一個大型GPU共同運作。NVLink Switch透過先進的張量、專家系統與data parallel attention演算法支援高度並行。年度硬體更新節奏與持續軟體最佳化。
NVIDIA自發表以來僅透過軟體便使Blackwell效能提升兩倍以上NVIDIA TensorRT-LLM、NVIDIA Dynamo、SGLang 與 vLLM 等開源推論框架皆經過最佳化以實現巔峰效能。龐大生態系:數百萬GPU部署、700萬CUDA開發者,並對超過1000個開源專案貢獻。