Nvidia、Blackwell GPUでMLPerfトレーニングランキングの頂点に!

- NvidiaのBlackwell GB200アクセラレータがMLPerf Training 5.0でのトレーニング時間短縮で記録的な成果を挙げた。
- 新しい4050億パラメータのLlama-3.1ワークロードを唯一完了した。
- 90%のスケーリング効率が実現され、エネルギーコストも削減。
Nvidiaは最新のMLPerf Training 5.0で、Blackwell GB200アクセラレータが新記録を打ち立てたと発表した。
このシステムは、2,496のGPUクラスタを使用し、1,829テラフロップスのアプリケーションスループットを維持した。全体のスケーリング効率は90%に達しており、これは通常数百のGPUを超えると直線的なスケーリングが難しくなる中での成果である。Nvidiaの加速計算製品部門のディレクターであるデイブ・サルバトール氏は、「私たちの達成は驚異的なスケーリング効率であり、ほぼ直線的なスケーリングが示されている」と述べた。
また、Blackwellは、Hopper世代のH100と比較して、トレーニングの収束時間を最大2.6倍短縮した。特に画像生成および大規模言語モデル(LLM)の事前トレーニングで顕著な成果が見られた。時間短縮は有用なモデルの迅速な開発に直結するため、研究開発サイクルを短縮する効果がある。
加えて、強調すべきは、MLPerf Training 5.0では新しい4050億パラメータのLlama 3.1に基づく事前トレーニングタスクが導入された点である。これにより、メモリ帯域幅や最適化性能が大きく変化する。Nvidiaがこの新しいワークロードの唯一のベンダーであることから、エンジニアにとっては今後のモデル開発に向けた明確な指標となる。
トレーニングは現在の推測重視の市場においても重要であることが指摘された。サルバトール氏は、トレーニング段階が生産に必要不可欠であると強調した。Nvidiaは「AIファクトリー」の概念を通じて、GPUラックがデータとパワーを供給し、モデルをトレーニングする仕組みを提唱している。
NvidiaはHopperアーキテクチャも引き続き重要視しており、H100が依然としてMLPerf Trainingにおいてリーダーシップを保持しているとして、顧客に対して既存のデプロイメントの意義を強調した。将来的には新しいGB300のサンプリングが予定されており、次回のMLPerfでの発表が期待される。
へぇ、Nvidiaの新しいアクセラレータすごいな。でもさ、これってどういうメリットがあるの?
それに、なんでこんなに重要なん?全然わかんないんだけど!
実は、この新しいアクセラレータはトレーニング時間を大幅に短縮できるんです。
それによって、AIモデルの開発が迅速に進むので、研究や実用化が加速します。
特に大規模な言語モデルや画像生成において大きな影響がありますよ。
NvidiaのBlackwell GB200アクセラレータは、最近のMLPerf Training 5.0で驚異的な成果を収めました。
トレーニング時間が最多で2.6倍短縮され、90%のスケーリング効率を実現したことで、AIモデルの開発が劇的に効率化されています。
特に4050億パラメータの新しいLlama-3.1タスクにおいて、他のベンダーと比較して圧倒的なパフォーマンスを示しています。
この技術革新が、AIの迅速な開発に寄与し、研究開発サイクルを短縮することが期待されています。
要するに、Nvidiaの新しいアクセラレータは、AIの進化における重要なカギを握っていると言えるでしょう。