AI推論の新時代到来!MLPerf v5.0が示す「思考」の進化
- 最新のMLPerf Inference v5.0で、生成AIが主要なワークロードとして伝統的な画像分類を上回った。
- MetaのLlama 2 70BがResNet-50を抜き、業界標準のベンチマークとして新たな地平を開いた。
- 新しいベンチマークが、AIワークロードの急成長に対応する形で追加された。
MLCommonsは新たなMLPerf Inference v5.0の結果を発表した。
大規模言語モデルが画像分類を上回り、MetaのLlama 2 70Bが長年の支配者ResNet-50を退けたことは、大きな転換を示している。
この変化に伴い、ベンチマークはエージェント的推論や巨大モデルへの要求を考慮したパフォーマンス、レイテンシ、スケールを測定する必要が出てきた。
業界のリーダーたちは、新しいハードウェアやソフトウェアを開発し、分散推論やFP4精度、低遅延性能を最適化している。
この取り組みがもたらした成果は顕著で、MLPerfの最新結果はこのコミュニティの急速な進化を物語っている。
MLPerf Inference作業部会は、アーキテクチャに依存しない方法で機械学習の性能を評価するベンチマークを設計している。
新しいベンチマークは、データセンターとエッジ環境の両方をカバーする形で追加され、サーバ型やオフライン、ストリーミングモードが含まれている。
各ベンチマークには詳細な仕様が含まれ、正確なモデルバージョンや入力データが定義されている。
応募は「閉じた」部門と「オープン」部門に分けられ、参加企業はAMD、Google、Nvidiaなど多岐にわたる。
最近の傾向として、FP4という新たな演算形式へのシフトが見られる。
MLCommonsによると、Llama 2 70Bの中央値のパフォーマンススコアは昨年の2倍に達し、ベストケースの結果は3.3倍の向上を見せた。
新しいベンチマークとして、Llama 3.1 405Bが登場し、4050億のパラメーターを持ち、広範なタスクへの対応力を示している。
リアルタイム応答性が求められるシステム向けのLlama 2 70Bインタラクティブも新たに追加され、高速な応答性能が評価される。
また、RGATベンチマークが登場し、グラフベースの推論タスクを評価することで、詐欺検出や推薦システムなどにおいて重要性を増している。
自動運転車向けに設計されたAutomotive PointPaintingベンチマークは、複雑なセンサー融合シナリオをシミュレートしている。

えっと、Llama 2 70Bって何がすごいの?
そんなにパフォーマンスが上がると、どんなことに使えるの?
あと、FP4って新しい演算形式って何なの?
それって生活にどう影響するのかな?
Llama 2 70Bは、
膨大なデータを処理できる
大規模な言語モデルです。
パフォーマンスが向上したことで、
リアルタイムな応答が求められる
アプリや自動運転車などに
利用される可能性があります。
FP4は新しい計算方式で、
精度や速度を向上させます。
これにより、AIの応答速度が
早くなり、私たちの生活が便利に
なるかもしれませんね。


今話題になっているのは、MLPerf Inference v5.0の結果です。
Llama 2 70BがResNet-50を超えたことは、大規模言語モデルの地位が向上した証ですね。
この進展は、生成AIが画像分類よりも重要となることを示しています。
FP4という新しい演算形式も注目されていますが、これは計算の精度と速度を高める重要な変化です。
このような技術進化は、リアルタイム応答が求められるアプリケーションや自動運転車に大きな影響を与えるでしょう。
新しいベンチマークが追加されたことで、AIの性能評価も柔軟に行えるようになっています。
私たちの日常生活にも、今後より便利なサービスが浸透してくるかもしれませんね。