AMDはMLPerf Inference v6.0のベンチマーク結果を発表し、Instinct MI355X GPUを、シングルノード、マルチノード、および異種混在デプロイメントをサポートできる、非常にスケーラブルな推論プラットフォームとして位置づけました。今回の提出では、段階的なパフォーマンス向上に加え、新しいワークロードが導入され、毎秒100万トークンを超えるクラスター規模のスループットが実証され、拡大するパートナーエコシステム全体での一貫したパフォーマンス再現性が検証されました。
CDNA 4アーキテクチャは高容量推論をターゲットに
Instinct MI355XはAMDのCDNA 4アーキテクチャに基づいて構築されており、TSMCのデュアルプロセスチップレット設計を採用しています。コンピュートダイ(XCD)は3nmプロセスを使用し、I/Oダイは6nm FinFETテクノロジーを利用しています。マルチチップレットパッケージは1850億個のトランジスタを統合し、FP4およびFP6データフォーマットをサポートしています。これは効率的な大規模モデル推論に不可欠です。各GPUは最大288GBのHBM3Eメモリ(メモリ帯域幅8TB/秒を提供)を搭載しており、単一デバイスで最大5200億パラメータのモデルをサポートできます。AMDは、このコンピュート密度とメモリ容量の組み合わせにより、大規模推論ワークロードの重要な利点である過剰なモデルパーティショニングの必要性がなくなると強調しています。
UBB8構成で利用可能なこのプラットフォームは、空冷と直接液冷の両方のオプションを提供し、多様なデータセンターのデプロイメント要件に対応します。特に、MI355Xは液冷で1400WのTBP(熱設計電力)を備えており、空冷のMI350Xよりも高いパフォーマンスを提供します。
マルチノードスループットは毎秒100万トークンを突破
MLPerf v6.0ラウンドの際立った成果は、AMDのクラスター規模のスループットが毎秒100万トークンを超えたことです。Instinct MI355X GPUを使用して、AMDはサーバーとオフラインの両方のシナリオでLlama 2 70B、およびオフラインモードでGPT-OSS-120Bでこのマイルストーンを達成しました。
AMD MLPerf 毎秒100万トークン グラフィック
これらの結果は、個々のアクセラレーターごとの推論パフォーマンスの評価から、クラスターレベルでの評価へと業界がシフトしていることを反映しています。集約スループットとサービス提供時間(time-to-serve)は、大規模AIデプロイメントにおける本番稼働準備の判断基準となっています。
AMDはまた、卓越したスケーリング効率を実証しました。Llama 2 70Bでは、11ノード、87GPUの構成で、オフライン、サーバー、インタラクティブなシナリオ全体で毎秒100万トークン以上を達成し、スケールアウト効率は93%から98%の範囲でした。GPT-OSS-120Bでは、12ノード、94GPUのクラスターが90%以上のスケーリング効率で同様のスループットを提供し、デプロイメントが単一システムを超えて拡大してもパフォーマンスが効果的に転送されることを証明しました。
世代間の進歩と競争力のあるシングルノードパフォーマンス
AMDは大幅な世代間の改善を報告しており、Instinct MI355XはLlama 2 70Bサーバーで、前世代のInstinct MI325Xと比較して3.1倍のパフォーマンス向上を達成し、毎秒100,282トークンに達しました。この改善は、CDNA 4アーキテクチャの強化とROCmソフトウェアの最適化の両方によるものです。オフラインスコアは前回のMLPerfラウンドと比較して4.4倍、サーバーは4.8倍向上しました。これは主に、AIワークロードのより高いスループットを可能にするMI355Xの主要機能であるFP4量子化によって推進されています。
AMD推論結果 vs 前世代グラフィック
NVIDIAプラットフォームとのシングルノード比較において、MI355Xは強力な競争力を示しました。Llama 2 70Bでは、オフラインスループットでNVIDIA B200に匹敵し、サーバーパフォーマンスではほぼ同等、インタラクティブモードではそれを上回りました。NVIDIA B300に対しては、MI355Xはオフラインパフォーマンスの92%、サーバーパフォーマンスの93%を提供し、インタラクティブモードでは4%上回りました。特に、MI355Xはコスト効率にも優れており、NVIDIA B200と比較して1ドルあたりのトークン数が40%多くなっています。
初めてのモデル有効化によりカバレッジが拡大
MLPerf Inference v6.0ではいくつかの新しいワークロードが導入され、AMDはこのラウンドで迅速なモデル有効化を実証しました。混合エキスパートモデルであるGPT-OSS-120BがMI355XでMLPerfに初登場し、オフラインとサーバーの両方のシナリオでNVIDIAシステムと比較して競争力のある結果を達成しました。
AMDはまた、Wan-2.2テキストからビデオへの生成の結果も提出し、マルチモーダルおよび生成ビデオ推論への参入を示しました。公式提出はシングルストリームレイテンシに焦点を当てていましたが、結果は既存のプラットフォームと同等でした。提出後のチューニングによりパフォーマンスがさらに向上し、ソフトウェアスタックが成熟するにつれて最適化の余地があることが示唆されました。
これらの追加は、AMDが従来のLLMベンチマークを超えて、多様なユースケースにおける新興AIワークロードをサポートするというコミットメントを強調しています。
ROCmソフトウェアはスケーリングと異種混在推論を可能に
AMDは、MI355Xのパフォーマンスとスケーラビリティの多くをROCmソフトウェアスタックに帰しています。主な強化機能には、最適化されたFP4実行、分散推論のためのGPU間通信の改善、および異種混在環境全体での動的なワークロード分散のサポートが含まれます。これは、混合GPUデプロイメントに不可欠です。
AMD MLPerf 推論結果 Instinct MI355X グラフィック
DellとMangoBoostによって開発された画期的な異種混在提出では、3つのAMD Instinct GPUモデル(MI300X、MI325X、MI355X)が使用されました。この構成は、Llama 2 70Bサーバーで141,521トークン/秒、Llama 2 70Bオフラインで151,843トークン/秒を達成しました。特に、MI355XプラットフォームはDellの米国ラボにあり、MI300XとMI325Xシステムは韓国にあり、地理的に離れた場所で分散システムを調整できる能力を示しています。
エコシステムの成長と再現性
AMDのパートナーエコシステムは今回のMLPerfラウンドで大幅に拡大し、9社が複数のInstinct GPU世代にわたる結果を提出しました。参加ベンダーには、Cisco、Dell、Giga Computing、HPE、MangoBoost、MiTAC、Oracle、Supermicro、Red Hatが含まれており、AMDの推論ソリューションの広範な業界採用を反映しています。
パートナー提出結果はAMDの内部結果と密接に一致しており、通常は4%以内、場合によっては1%以内でした。この一貫性は、MI355XのパフォーマンスがOEMおよびクラウドプラットフォーム全体で再現可能であることを確認し、デプロイメントリスクを軽減し、実際のパフォーマンス結果に対する信頼を高めます。
北京千星捷通科技有限公司
Sandy Yang/グローバル戦略ディレクター
WhatsApp / WeChat: +86 13426366826
Eメール: yangyd@qianxingdata.com
ウェブサイト: www.qianxingdata.com/www.storagesserver.com
ビジネスフォーカス:
ICT製品流通/システムインテグレーション&サービス/インフラストラクチャソリューション
20年以上のIT流通経験を持ち、主要グローバルブランドと提携して信頼性の高い製品とプロフェッショナルサービスを提供しています。
「テクノロジーでインテリジェントな世界を構築する」あなたの信頼できるICT製品サービスプロバイダー!
Sandy Yang/グローバル戦略ディレクター
WhatsApp / WeChat: +86 13426366826
Eメール: yangyd@qianxingdata.com
ウェブサイト: www.qianxingdata.com/www.storagesserver.com
ビジネスフォーカス:
ICT製品流通/システムインテグレーション&サービス/インフラストラクチャソリューション
20年以上のIT流通経験を持ち、主要グローバルブランドと提携して信頼性の高い製品とプロフェッショナルサービスを提供しています。
「テクノロジーでインテリジェントな世界を構築する」あなたの信頼できるICT製品サービスプロバイダー!



