輝達稱霸MLPerf!GB300 NVL72僅用10分鐘訓練完Llama 405B模型
【財經中心/綜合外電】外媒《wccftech》在12日的報導中指出,NVIDIA Blackwell Ultra橫掃7大MLPerf AI訓練基準測試,GB300 NVL72打造Llama 405B訓練時間僅10分鐘破紀錄。
NVIDIA(輝達)12日宣布,其基於Blackwell Ultra的GB300 NVL72平台,在所有MLPerf AI訓練基準測試中皆奪冠,展現領先業界的AI訓練效能。
在AI運算效能上,NVIDIA GPU一向居於領先地位。基於Blackwell架構的資料中心GPU多次展示其卓越潛力,而最新的GB300 NVL72平台同樣不例外。
NVIDIA自豪宣布,其搭載Blackwell Ultra的AI GPU在每個MLPerf訓練基準中都拿下第1,證明GB300 NVL72機架級系統依然是處理高強度AI工作負載的最佳選擇。
《wccftech》指出,NVIDIA 12日在官方部落格中提到,它是唯一一個提交所有MLPerf測試結果的廠商,並且進一步拉開與競爭對手的效能差距。官方提供的圖表顯示,NVIDIA的GB300平台在2025年已經取得「數百次」MLPerf訓練與推論測試勝利。近期成績如下:
Llama 3.1 405B:10分鐘
Llama 2 70B LoRA:0.4分鐘
Llama 3.1 8B:5.2分鐘
FLUX.1:12.5分鐘
DLRM-dcnv2:0.71分鐘
R-GAT:1.1分鐘
RetinaNet:1.4分鐘
基準測試結果顯示,GB300在相同Blackwell Ultra GPU數量下,效能明顯超越Hopper平台。以Llama 3.1 40B的預訓練為例,GB300的效能超過H100 3倍,幾乎是Blackwell GB200的2倍。而在Llama 2 70B的微調測試中,8顆GB300 GPU的效能是H100的5倍。
NVIDIA同時強調其CUDA生態系統的優勢,除了軟體堆疊表現出色外,機架系統本身搭配Quantum-X800 InfiniBand 800 GB/s高速網路,也無可匹敵。GB300 NVL72每顆GPU配備279 GB HBM3e記憶體,GPU與CPU總容量高達40TB,龐大的記憶體配置大幅加速AI運算,而採用FP4精度訓練更是提升效能的關鍵。
NVIDIA指出,在LLM訓練中,每一層都採用FP4精度可比FP8提高1倍運算速度,而Blackwell Ultra則進一步提升至3倍,這也是NVIDIA能在不增加GPU數量的情況下,大幅領先競爭對手的原因。
相比6月的提交結果,這次使用5120顆Blackwell GPU,僅用10分鐘就完成Llama 3.1 405B參數的訓練,創下新紀錄。
