NEWS

輝達稱霸MLPerf！GB300 NVL72僅用10分鐘訓練完Llama 405B模型

財經

記者 SJ

發布 2025/11/13 11:44

#國際焦點

【財經中心／綜合外電】外媒《wccftech》在12日的報導中指出，NVIDIA Blackwell Ultra橫掃7大MLPerf AI訓練基準測試，GB300 NVL72打造Llama 405B訓練時間僅10分鐘破紀錄。

NVIDIA（輝達）12日宣布，其基於Blackwell Ultra的GB300 NVL72平台，在所有MLPerf AI訓練基準測試中皆奪冠，展現領先業界的AI訓練效能。

在AI運算效能上，NVIDIA GPU一向居於領先地位。基於Blackwell架構的資料中心GPU多次展示其卓越潛力，而最新的GB300 NVL72平台同樣不例外。

NVIDIA自豪宣布，其搭載Blackwell Ultra的AI GPU在每個MLPerf訓練基準中都拿下第1，證明GB300 NVL72機架級系統依然是處理高強度AI工作負載的最佳選擇。

《wccftech》指出，NVIDIA 12日在官方部落格中提到，它是唯一一個提交所有MLPerf測試結果的廠商，並且進一步拉開與競爭對手的效能差距。官方提供的圖表顯示，NVIDIA的GB300平台在2025年已經取得「數百次」MLPerf訓練與推論測試勝利。近期成績如下：

Llama 3.1 405B：10分鐘
Llama 2 70B LoRA：0.4分鐘
Llama 3.1 8B：5.2分鐘
FLUX.1：12.5分鐘
DLRM-dcnv2：0.71分鐘
R-GAT：1.1分鐘
RetinaNet：1.4分鐘

基準測試結果顯示，GB300在相同Blackwell Ultra GPU數量下，效能明顯超越Hopper平台。以Llama 3.1 40B的預訓練為例，GB300的效能超過H100 3倍，幾乎是Blackwell GB200的2倍。而在Llama 2 70B的微調測試中，8顆GB300 GPU的效能是H100的5倍。

NVIDIA同時強調其CUDA生態系統的優勢，除了軟體堆疊表現出色外，機架系統本身搭配Quantum-X800 InfiniBand 800 GB/s高速網路，也無可匹敵。GB300 NVL72每顆GPU配備279 GB HBM3e記憶體，GPU與CPU總容量高達40TB，龐大的記憶體配置大幅加速AI運算，而採用FP4精度訓練更是提升效能的關鍵。

NVIDIA指出，在LLM訓練中，每一層都採用FP4精度可比FP8提高1倍運算速度，而Blackwell Ultra則進一步提升至3倍，這也是NVIDIA能在不增加GPU數量的情況下，大幅領先競爭對手的原因。

相比6月的提交結果，這次使用5120顆Blackwell GPU，僅用10分鐘就完成Llama 3.1 405B參數的訓練，創下新紀錄。