輝達最新MLPerf訓練測試　以較去年3.2倍GPU規模實現3倍以上性能-港臺熱話

輝達最新MLPerf訓練測試　以較去年3.2倍GPU規模實現3倍以上性能

jcatcj 06月 13,2024

NVIDIA表示，由於 NVIDIA AI 平台的可擴展性，Eos 現在可以更快地訓練 GPT-3 175B 等大規模 AI 模型，這種出色的 AI 效能可以轉化為巨大的商機。例如，在NVIDIA最近的財報電話會議，NVIDIA述了大型語言模型服務供應商如何在 NVIDIA HGX H200 伺服器上運行 Llama 3 70B 模型，在短短四年內將一美元投資轉化為七美元。這個投資回報是假設一家大型語言服務供應商使用吞吐量為每秒 24,000詞元的HGX H200伺服器，以每百萬詞元0.6美元的價格提供 Llama 3 70B 服務。

NVIDIA說明，NVIDIA H200 Tensor GPU 基於 Hopper 架構的優勢而構建，擁有 141GB HBM3 記憶體，與 H100 GPU 相比，記憶體頻寬增加了 40% 以上。 NVIDIA H200 Tensor Core GPU 突破了 AI 訓練的極限，在其首次亮相的 MLPerf Training 中延伸 H100 的效能並提高了 47%。由於對軟體堆疊進行了大量最佳化，NVIDIA使用 512 個H100 GPU 的配置所提交的結果現在比一年前快了 27%。這項改進凸顯了即使使用相同的硬體，持續的軟體增強也可以顯著提高效能。

隨著 GPU 數量從去年的 3,584 個 H100 GPU 增加到此次提交的 11,616 個 H100 GPU，增加 3.2 倍，提交的效能也隨之等比增加。

NVIDIA指出，隨著企業尋求客製化預訓練的大型語言模型，大型語言模型微調正在成為產業關鍵的工作負載。本輪MLPerf引入基於應用於 Meta Llama 2 70B 的熱門低秩適應（LoRA）技術的全新大型語言模型微調基準。NVIDIA 平台在這項任務中表現出色，從 8 個GPU擴展到 1,024 個GPU，NVIDIA提交了在最大規模的運算結果創紀錄的 1.5 分鐘內完成了基準測試。

NVIDIA也在於上輪提交的相同系統規模下，將Stable Diffusion v2 訓練效能提高了 80%，這反映了 NVIDIA 軟體堆疊的諸多強化，展示了軟體和硬體改進如何並進以提供頂級效能。基於 R-GAT 的新圖神經網路（GNN）測試中，配備 H100 GPU 的 NVIDIA 平台在小規模和大規模方面均表現出色。與 H100 相比，H200 在單節點 GNN 訓練方面提升了 47%。這展示了 NVIDIA GPU 的強大效能和高效率，使其成為各種 AI 應用的理想選擇。

NVIDIA的10家合作夥伴提交結果，反映了NVIDIA AI生態系的廣度，包括華碩、戴爾科技集團、富士通、技嘉科技、慧與企業、聯想、甲骨文、雲達科技、美超微和Sustainable Metal Cloud。此廣泛的參與以及各夥伴傑出的基準測試結果，突顯了 NVIDIA AI 平台在整個產業的廣泛採用和信任。

輝達 NVIDIA GPT LLM