NVIDIA DGX Spark には 2 つの特徴が際立っています。それは、4,000 ドルのデスクトップ ユニットに 128 GB のユニファイド メモリを搭載し、もう 1 つは内蔵の 200 GB データセンター グレードのネットワークです。高速ファブリックにより通常のワークステーションとの差別化が図られ、かつてはラックマウント型サーバーのみに限定されていたマルチノード クラスタリングが可能になります。このレビューでは、さまざまなモデルとワークロードにわたる 2 ノード 200GbE クラスターの Dell、GIGABYTE、および HP Spark バリアントにわたる分散推論のベンチマークを評価します。また、NVIDIA のデフォルトのテンソル並列処理 (TP) を上回る別の分割方法であるパイプライン並列処理 (PP) も分析します。
200Gb ネットワーク ファブリック
各 Spark には、統合された ConnectX-7 SmartNIC とペアになった 2 つの QSFP56 ケージが装備されています。 PCIe Gen5 x4 帯域幅によって制限され、使用可能なネットワーク速度は 200Gb に制限されます。1 つのポートで全帯域幅に十分です。 2 番目のポートはトポロジの柔軟性を提供します。 3 つの一般的な構成が利用可能です。直接 Spark-to-Spark 200Gb リンク、デュアル 100Gb ポートによるスイッチ不要のリング トポロジ、NVMe-oF 高速ストレージ アクセスを備えたハイブリッド クラスタリングです。 NVIDIA は、シングル ユニット デスクトップ、検証済みの 2 ノード クラスター、および新しくリリースされた 4 ノード セットアップを販売しています。デュアル Spark 構成は、運用スタイルの推論にとって最も実用的であり、このテストの焦点です。
Spark クラスタリングの理論的根拠
主な利点はモデル容量の拡大です。リンクされた 2 つの Spark で、単一ユニットのメモリ制限を超える 120B パラメーターのモデルを実行できます。さらに重要なのは、このプラットフォームが手頃な価格の教育ツールとして機能することです。 NVIDIA は、初心者が AI ワークフローを学習できるように Spark を設計しており、モデルのデプロイ、微調整、PyTorch/JAX 開発をカバーする公式ガイドが含まれています。デュアルノード クラスターは、高価なデータセンター ハードウェアを使用せずに、マルチノードの並列処理とネットワークのボトルネック分析をさらに学習します。特に、Spark は運用推論用に最適化されていません。 200GbE リンクはメモリ帯域幅とノード間の遅延によって制限され、内部 PCIe 接続よりも遅くなります。大規模なクラスターでは、トークンのスループットが低くなりパフォーマンスが大幅に低下するため、商用サービスではなく教育用途に制限されます。
パフォーマンステスト: PP 対 TP
並列処理戦略の選択
NVIDIA のデフォルトは TP で、各トランスフォーマー層が 2 つの GPU に分割され、頻繁に all-reduce データ交換が行われます。対照的に、PP はモデルをレイヤーごとに分割し、ノード間でアクティベーションを 1 回だけ転送します。 200GbE リンクでは、PP はノード間通信を最小限に抑えます。高いバッチサイズの大規模モデルの場合、PP は TP を大幅に上回ります。 TP は、単一リクエストの低遅延チャット シナリオでのみ優れています。
GPT-OSS-120B のテストでは、このギャップが確認されています。バッチ サイズ 128 では、PP はバランスの取れたワークロードで 554.69 tok/s (TP の 2.20 倍高速) に達し、プリフィルの多いタスクでは 310.63 tok/s に対して 164.99 tok/s に達します。 TP はバッチ サイズ 1 でのみリードします。Llama-3.1-8B のような小規模モデルの場合、軽量層の計算により TP がほとんどのバッチ サイズを支配し、同時実行性が高い場合にのみ PP が TP を追い越します。
マルチモデルのベンチマーク結果 (PP=2)
GPT-OSSシリーズ
GPT-OSS-120B の場合、HP はバランスの取れたワークロード (504.88 tok/s) およびプレフィルの多いワークロード (441.63 tok/s) で最高のピーク スループットを達成しました。 GIGABYTE はデコード負荷の高いテスト (494.37 tok/s) を主導しました。 GPT-OSS-20B では、デルがバランス型 (976.77 トークン/秒) およびプレフィル負荷の高いシナリオ (852.39 トークン/秒) のシナリオを支配し、GIGABYTE がデコード タスク (945.55 トークン/秒) をリードしました。
ラマ 3.1 8B バリアント
BF16 精度では、デルはバランスの取れたワークロード (689.53 tok/s) とデコードの多いワークロード (581.43 tok/s) をリードしました。 GIGABYTE はプレフィル負荷の高いテスト (539.27 tok/s) で勝利しました。 FP4 の最適化によりスループットが大幅に向上しました。GIGABYTE は、バランスの取れたタスク (1458.86 tok/s) とプリフィルの多いタスク (954.23 tok/s) を主導しました。 FP8 では、デルはバランスの取れたシナリオ (1105.42 トーク/秒) とデコードが多いシナリオ (862.33 トーク/秒) で狭いリードを維持しました。
ミストラル&クウェンモデル
Mistral Small 3.1 24B では最小限のギャップが見られました。GIGABYTE はバランスの取れたワークロードで 255.09 tok/s でピークに達しました。 Qwen3 Coder 30B (A3B Base) では、GIGABYTE がプリフィル負荷の高いタスク (1862.40 tok/s) を主導しました。デルはデコードのシナリオに優れていました。 FB8 量子化では、プリフィルを多く使用するスループット (3088.62 tok/s) では GIGABYTE がトップとなり、デコード タスク (705.77 tok/s) では Dell がトップでした。
デュアル スパーク システムのピーク出力の概要
|
モデル
|
シナリオ(BS-64)
|
デルのピーク出力
|
GIGABYTEのピーク出力
|
HPピーク出力
|
|---|---|---|---|---|
|
GPT-OSS-120B
|
等しいISL/OSL
|
463.97トーク/秒
|
497.26トーク/秒
|
504.88トーク/秒
|
|
GPT-OSS-120B
|
プレフィルヘビー
|
419.56トーク/秒
|
417.34トーク/秒
|
441.63トーク/秒
|
|
GPT-OSS-120B
|
デコードヘビー
|
451.18トーク/秒
|
494.37 トーク/秒
|
474.85トーク/秒
|
|
GPT-OSS-20B
|
等しいISL/OSL
|
976.77トーク/秒
|
952.31トーク/秒
|
915.72トーク/秒
|
|
GPT-OSS-20B
|
プレフィルヘビー
|
852.39トーク/秒
|
802.37 トーク/秒
|
757.05トーク/秒
|
|
GPT-OSS-20B
|
デコードヘビー
|
938.65トーク/秒
|
945.55トーク/秒
|
865.78トーク/秒
|
|
ラマ-3.1-8B-命令
|
等しいISL/OSL
|
689.53トーク/秒
|
687.48トーク/秒
|
618.87トーク/秒
|
|
ラマ-3.1-8B-命令
|
プレフィルヘビー
|
515.45トーク/秒
|
539.27トーク/秒
|
463.39 トーク/秒
|
|
ラマ-3.1-8B-命令
|
デコードヘビー
|
581.43トーク/秒
|
576.91トーク/秒
|
531.07トーク/秒
|
|
ラマ-3.1-8B-FP4
|
等しいISL/OSL
|
1427.39トーク/秒
|
1458.86トーク/秒
|
1413.51トーク/秒
|
|
ラマ-3.1-8B-FP4
|
プレフィルヘビー
|
884.22トーク/秒
|
954.23トーク/秒
|
843.57トーク/秒
|
|
ラマ-3.1-8B-FP4
|
デコードヘビー
|
1008.98トーク/秒
|
1007.23トーク/秒
|
943.73トーク/秒
|
|
ラマ-3.1-8B-FP8
|
等しいISL/OSL
|
1105.42トーク/秒
|
1089.85トーク/秒
|
1076.68トーク/秒
|
|
ラマ-3.1-8B-FP8
|
プレフィルヘビー
|
759.50トーク/秒
|
827.40トーク/秒
|
725.51トーク/秒
|
|
ラマ-3.1-8B-FP8
|
デコードヘビー
|
862.33トーク/秒
|
855.81トーク/秒
|
800.78トーク/秒
|
|
ミストラル-小-3.1-24B
|
等しいISL/OSL
|
249.77トーク/秒
|
255.09トーク/秒
|
239.09トーク/秒
|
|
ミストラル-小-3.1-24B
|
プレフィルヘビー
|
216.01トーク/秒
|
214.38トーク/秒
|
197.92トーク/秒
|
|
ミストラル-小-3.1-24B
|
デコードヘビー
|
238.44トーク/秒
|
237.97トーク/秒
|
221.41トーク/秒
|
結論
Dell、GIGABYTE、および HP Spark ユニットのパフォーマンス ギャップは無視できますが、バッチ固有のリードはわずかです。購入の決定では、些細なベンチマークの違いよりも、シャーシの設計、熱性能、保証、アフターサポートを優先する必要があります。並列処理戦略は、OEM のバリエーションよりもはるかに大きな影響を及ぼします。PP はバッチ推論では TP よりも優れていますが、TP は単一ストリームの低遅延の対話に適しています。 NVIDIA の TP 推奨事項は、運用インフラストラクチャではなく対話型学習デバイスとしての Spark の位置付けと一致しています。デュアルノード Spark クラスターは、分散型 AI のための手頃な価格の教育プラットフォームとして機能します。今後のテストでは、大規模なクラスターとエンドツーエンドの小規模モデルのトレーニングがカバーされる予定で、ラボの 800Gb スイッチの導入は保留されています。
北京乾興解放科技有限公司
サンディ・ヤン/グローバル戦略ディレクター
WhatsApp / WeChat: +86 13426366826
電子メール: yangyd@qianxingdata.com
ウェブサイト: www.qianxingdata.com/www.storagesserver.com
ビジネスの焦点:
ICTプロダクト流通/システムインテグレーション&サービス/インフラソリューション
20 年以上の IT 流通経験を持つ当社は、主要な世界的ブランドと提携して、信頼性の高い製品とプロフェッショナルなサービスを提供しています。
「テクノロジーを活用してインテリジェントな世界を構築する」信頼できる ICT 製品サービス プロバイダー!
サンディ・ヤン/グローバル戦略ディレクター
WhatsApp / WeChat: +86 13426366826
電子メール: yangyd@qianxingdata.com
ウェブサイト: www.qianxingdata.com/www.storagesserver.com
ビジネスの焦点:
ICTプロダクト流通/システムインテグレーション&サービス/インフラソリューション
20 年以上の IT 流通経験を持つ当社は、主要な世界的ブランドと提携して、信頼性の高い製品とプロフェッショナルなサービスを提供しています。
「テクノロジーを活用してインテリジェントな世界を構築する」信頼できる ICT 製品サービス プロバイダー!



