AMD は、既存のデータセンター インフラストラクチャを全面的に改修することなくオンプレミス AI 推論を求める企業ユーザー向けに調整された新しい PCIe アクセラレータである Instinct MI350P を正式にリリースしました。デュアルスロット、フルハイトおよびフルレングスのフォームファクターを備えたこのグラフィックス カードは、従来の空冷サーバーと完全な互換性があります。また、これは、AMD が標準サーバー スロット向けに設計した現行世代の Instinct チップをほぼ 4 年ぶりにリリースすることにもなります。
AMD Instinct MI350P
AMDのPCIeベースのInstinct製品ラインは、2022年初頭にMI210が発売されて以降、停滞したままだった。MI300X、MI325X、OAMフォーマットMI350Xを含むその後のすべての世代では、専用のユニバーサルベースボードにマウントされたOAMソケットモジュールが採用された。これらのモジュールには、単一のトレイで最大 8 つの 1,000 W クラスのアクセラレータをサポートするために、堅牢な電力供給とエアフローを備えたカスタマイズされたエンクロージャが必要です。このようなハードウェア アーキテクチャは、GPU ラックを一括購入するハイパースケール クラウド プロバイダーには適していますが、オンサイト推論タスク用にオーダーメイドの AI ラックを導入したくない、または導入できない一般企業には対応できません。 MI350P は、この市場のギャップを正確に埋めます。現在、NVIDIA にはこのセグメントにおけるハイエンド サーバー グレードの PCIe 競合他社が存在せず、AMD が一時的な市場独占権を残しています。
ハードウェアの比較: MI350P と MI350X OAM
MI350P は MI350X の縮小版ではありません。 AMD は、この新しいモデルのために独立した合理化されたチップを設計しました。 MI350X は 2 つの I/O ダイと 8 つのアクセラレータ コンプレックス ダイ (XCD) を統合し、合計 256 個のコンピューティング ユニットを提供します。対照的に、MI350P には 1 つの I/O ダイと 4 つの XCD が含まれており、128 の計算ユニットに相当します。シリコンのスケールを半分にしたにもかかわらず、上位層の同等品と同じ 2.2 GHz のピーク クロック周波数を維持します。メモリ構成は、同じダウングレード仕様に従っています。つまり、MI350X の 288 GB および 8 TB/秒のスループットと比較して、4 つの HBM3E スタック (8 スタック)、4,096 ビット メモリ バス (8,192 ビットからダウン)、144 GB のメモリ容量と 4 TB/秒の帯域幅です。
AMD Instinct MI350P アーキテクチャ
ピークのコンピューティング スループットも半分に減少します。 MI350P は、MI350X の 9.2 PFLOPS に対して 4,600 MXFP4 TFLOPS に達し、プレミアム モデルの 4.6 PFLOPS と比較して 2,300 FP8 TFLOPS に達します。 BF16、FP16、およびその他の精度標準のパフォーマンス指標も同様に比例して低下します。特に、AMD は透明性を確保するために、ピーク時と実際の持続的なパフォーマンス データの両方を公開しています。このカードは、MXFP4 で 2,299 TFLOPS、FP8 で 1,529 TFLOPS、BF16 で 713 TFLOPS を実現します。これらの実際の数値は、600 W の電力エンベロープ内の実際の出力を反映しています。電力の制約とメモリ帯域幅の制限により、理論上のピーク パフォーマンスは必然的に低下します。
編集チームは以前、Supermicro の Jumpstart プログラムを介して MI350X プラットフォームを評価し、その堅牢な推論ワークロード機能を認識しました。チームは、MI350P の実地テストを実施し、この PCIe フォームファクター アクセラレータが標準の汎用サーバー シャーシ内でどのように動作するかを分析することに熱心です。
MI350P は、シリコン スケールが半分であるにもかかわらず、電力が 50% 削減されるわけではありません。 600W TBP 電力定格を備えており、これは MI350X の 1000W 制限の約 60% に相当します。このピークワット数は PCIe CEM 仕様の上限に達し、スロットの最大温度しきい値でカードを実行します。冷却が不十分なサーバーでは、中程度のパフォーマンス低下を伴う、低減された 450W 動作モードが利用可能です。同じパワー ブラケットに位置する MI350P は、企業調達において NVIDIA の H200 NVL および RTX Pro 6000 サーバーと直接競合します。
NVL4 高速インターコネクトを備えた NVIDIA の H200 とは異なり、MI350P は Infinity Fabric の公開を無効にします。すべての GPU 間のデータ送信は、PCIe Gen5 x16 の 128 GB/秒の帯域幅に制限されます。
8 GPU 空冷導入
標準のデュアルスロット FHFL PCIe カードとして、MI350P は既存のエンタープライズ サーバーと互換性があります。主要な OEM は、以前レビューした Dell PowerEdge XE7740 や HPE ProLiant DL380a Gen12 など、高密度 8 GPU 空冷モデルを提供しています。 600W アクセラレータ用に最適化されたこれらのプラットフォームには、カスタム ラック、液体冷却、OAM ベースボードは必要ありません。
8 枚のカード MI350P 構成は、1,152 GB HBM3E と 32 TB/秒の総帯域幅を提供し、1 つの空冷シャーシ内で MXFP4 精度の兆パラメータ モデルをホストするのに十分です。それにもかかわらず、専用のスケーリング ファブリックが犠牲になります。 MI350X は高速モジュール間通信に Infinity Fabric を利用しますが、MI350P は PCIe Gen5 のみに依存します。このアーキテクチャは、推論のためのノードローカルのテンソル並列処理とノード間のデータ並列処理に適していますが、帯域幅を大量に消費する AI トレーニング タスクには OAM ベースの MI350X が依然として優れています。
高精度フォーマット
MI350P は、アップグレードすることなく、MI350X からすべての高精度フォーマットを継承します。 MXFP4、MXFP6、MXFP8 などの OCP ブロック スケーリング タイプは AI モデル開発の主流となっており、品質の低下を無視した低精度のトレーニングを可能にします。 MXFP4 は、FP8 の 2 倍を超える速度と、BF16 の 4 倍のスループットを実現します。 OpenAI gpt-oss や Kim K2.6 などの実際の事例は、ネイティブの低ビット量子化の価値を証明しています。 MXFP4 および INT4 の重みは BF16 メモリ空間の 25% しか占有しないため、1 兆個のパラメータ モデルを単一の 8 GPU サーバー内にデプロイでき、オンプレミス企業にとって煩わしいマルチノード クラスターが不要になります。
結論
ほとんどのオンプレミス AI 企業は、生のコンピューティング能力ではなく、電力、冷却、密度、予算によって制約を受けています。ドロップイン MI350P は、これらの導入の障壁を効果的に軽減します。 NVIDIA にはこのセグメントにおける主力 PCIe サーバー GPU が不足しているため、AMD は当面、明確な競争上の優位性を維持します。詳細については、AMD の公式 Instinct Web ページをご覧ください。
北京乾興解放科技有限公司
サンディ・ヤン/グローバル戦略ディレクター
WhatsApp / WeChat: +86 13426366826
電子メール: yangyd@qianxingdata.com
ウェブサイト: www.qianxingdata.com/www.storagesserver.com
ビジネスの焦点:
ICTプロダクト流通/システムインテグレーション&サービス/インフラソリューション
20 年以上の IT 流通経験を持つ当社は、主要な世界的ブランドと提携して、信頼性の高い製品とプロフェッショナルなサービスを提供しています。
「テクノロジーを活用してインテリジェントな世界を構築する」信頼できる ICT 製品サービス プロバイダー!
サンディ・ヤン/グローバル戦略ディレクター
WhatsApp / WeChat: +86 13426366826
電子メール: yangyd@qianxingdata.com
ウェブサイト: www.qianxingdata.com/www.storagesserver.com
ビジネスの焦点:
ICTプロダクト流通/システムインテグレーション&サービス/インフラソリューション
20 年以上の IT 流通経験を持つ当社は、主要な世界的ブランドと提携して、信頼性の高い製品とプロフェッショナルなサービスを提供しています。
「テクノロジーを活用してインテリジェントな世界を構築する」信頼できる ICT 製品サービス プロバイダー!



