logo
ホーム 事例

NVIDIA DGX Spark クラスターのレビュー: Dell、GIGABYTE、HP での分散推論

認証
中国 Beijing Qianxing Jietong Technology Co., Ltd. 認証
中国 Beijing Qianxing Jietong Technology Co., Ltd. 認証
顧客の検討
北京Qianxing Jietongの技術Co.、株式会社の販売スタッフは非常に専門および忍耐強い。それらは引用語句をすぐに提供してもいい。プロダクトの質そして包装はまた非常によい。私達の協同は非常に滑らかである。

—— 《のFestfing DVの》 LLC

私がIntel CPUおよび東芝SSDを緊急に捜していたときに、北京Qianxing Jietongの技術Co.、株式会社からのサンディは私に多くの助けを与え、私に私がすぐに必要としたプロダクトを得た。私は実際に彼女を認める。

—— キティ円

北京Qianxing Jietongの技術Co.、株式会社のサンディは私がサーバーを買う時間の構成間違いを私に思い出させることができる非常に注意深いセールスマンである。エンジニアはまた非常に専門で、すぐにテスト プロセスを完了できる。

—— Strelkin Mikhail Vladimirovich

北京千星捷通との仕事は大変満足しています。製品の品質は素晴らしく、納期も常に守られています。営業チームはプロフェッショナルで、忍耐強く、私たちの質問にすべて丁寧に対応してくれます。彼らのサポートに心から感謝しており、長期的なパートナーシップを期待しています。強くお勧めします!

—— アフマド・ナビド

品質: 提供者との素晴らしい経験. MikroTik RB3011は既に使用されていましたが,非常に良い状態で,すべてが完璧に動作しています. コミュニケーションは迅速でスムーズでした.そして私の懸念はすぐに解決されました信頼性の高いサプライヤーです 強くお勧めします

—— ゲラン・コレシオ

オンラインです

NVIDIA DGX Spark クラスターのレビュー: Dell、GIGABYTE、HP での分散推論

May 15, 2026
NVIDIA DGX Spark には 2 つの特徴が際立っています。それは、4,000 ドルのデスクトップ ユニットに 128 GB のユニファイド メモリを搭載し、もう 1 つは内蔵の 200 GB データセンター グレードのネットワークです。高速ファブリックにより通常のワークステーションとの差別化が図られ、かつてはラックマウント型サーバーのみに限定されていたマルチノード クラスタリングが可能になります。このレビューでは、さまざまなモデルとワークロードにわたる 2 ノード 200GbE クラスターの Dell、GIGABYTE、および HP Spark バリアントにわたる分散推論のベンチマークを評価します。また、NVIDIA のデフォルトのテンソル並列処理 (TP) を上回る別の分割方法であるパイプライン並列処理 (PP) も分析します。

最新の会社の事例について NVIDIA DGX Spark クラスターのレビュー: Dell、GIGABYTE、HP での分散推論  0

200Gb ネットワーク ファブリック


各 Spark には、統合された ConnectX-7 SmartNIC とペアになった 2 つの QSFP56 ケージが装備されています。 PCIe Gen5 x4 帯域幅によって制限され、使用可能なネットワーク速度は 200Gb に制限されます。1 つのポートで全帯域幅に十分です。 2 番目のポートはトポロジの柔軟性を提供します。 3 つの一般的な構成が利用可能です。直接 Spark-to-Spark 200Gb リンク、デュアル 100Gb ポートによるスイッチ不要のリング トポロジ、NVMe-oF 高速ストレージ アクセスを備えたハイブリッド クラスタリングです。 NVIDIA は、シングル ユニット デスクトップ、検証済みの 2 ノード クラスター、および新しくリリースされた 4 ノード セットアップを販売しています。デュアル Spark 構成は、運用スタイルの推論にとって最も実用的であり、このテストの焦点です。

最新の会社の事例について NVIDIA DGX Spark クラスターのレビュー: Dell、GIGABYTE、HP での分散推論  1

Spark クラスタリングの理論的根拠


主な利点はモデル容量の拡大です。リンクされた 2 つの Spark で、単一ユニットのメモリ制限を超える 120B パラメーターのモデルを実行できます。さらに重要なのは、このプラットフォームが手頃な価格の教育ツールとして機能することです。 NVIDIA は、初心者が AI ワークフローを学習できるように Spark を設計しており、モデルのデプロイ、微調整、PyTorch/JAX 開発をカバーする公式ガイドが含まれています。デュアルノード クラスターは、高価なデータセンター ハードウェアを使用せずに、マルチノードの並列処理とネットワークのボトルネック分析をさらに学習します。特に、Spark は運用推論用に最適化されていません。 200GbE リンクはメモリ帯域幅とノード間の遅延によって制限され、内部 PCIe 接続よりも遅くなります。大規模なクラスターでは、トークンのスループットが低くなりパフォーマンスが大幅に低下するため、商用サービスではなく教育用途に制限されます。

パフォーマンステスト: PP 対 TP


並列処理戦略の選択


NVIDIA のデフォルトは TP で、各トランスフォーマー層が 2 つの GPU に分割され、頻繁に all-reduce データ交換が行われます。対照的に、PP はモデルをレイヤーごとに分割し、ノード間でアクティベーションを 1 回だけ転送します。 200GbE リンクでは、PP はノード間通信を最小限に抑えます。高いバッチサイズの大規模モデルの場合、PP は TP を大幅に上回ります。 TP は、単一リクエストの低遅延チャット シナリオでのみ優れています。
GPT-OSS-120B のテストでは、このギャップが確認されています。バッチ サイズ 128 では、PP はバランスの取れたワークロードで 554.69 tok/s (TP の 2.20 倍高速) に達し、プリフィルの多いタスクでは 310.63 tok/s に対して 164.99 tok/s に達します。 TP はバッチ サイズ 1 でのみリードします。Llama-3.1-8B のような小規模モデルの場合、軽量層の計算により TP がほとんどのバッチ サイズを支配し、同時実行性が高い場合にのみ PP が TP を追い越します。

マルチモデルのベンチマーク結果 (PP=2)


GPT-OSSシリーズ


GPT-OSS-120B の場合、HP はバランスの取れたワークロード (504.88 tok/s) およびプレフィルの多いワークロード (441.63 tok/s) で最高のピーク スループットを達成しました。 GIGABYTE はデコード負荷の高いテスト (494.37 tok/s) を主導しました。 GPT-OSS-20B では、デルがバランス型 (976.77 トークン/秒) およびプレフィル負荷の高いシナリオ (852.39 トークン/秒) のシナリオを支配し、GIGABYTE がデコード タスク (945.55 トークン/秒) をリードしました。

ラマ 3.1 8B バリアント


BF16 精度では、デルはバランスの取れたワークロード (689.53 tok/s) とデコードの多いワークロード (581.43 tok/s) をリードしました。 GIGABYTE はプレフィル負荷の高いテスト (539.27 tok/s) で勝利しました。 FP4 の最適化によりスループットが大幅に向上しました。GIGABYTE は、バランスの取れたタスク (1458.86 tok/s) とプリフィルの多いタスク (954.23 tok/s) を主導しました。 FP8 では、デルはバランスの取れたシナリオ (1105.42 トーク/秒) とデコードが多いシナリオ (862.33 トーク/秒) で狭いリードを維持しました。

ミストラル&クウェンモデル


Mistral Small 3.1 24B では最小限のギャップが見られました。GIGABYTE はバランスの取れたワークロードで 255.09 tok/s でピークに達しました。 Qwen3 Coder 30B (A3B Base) では、GIGABYTE がプリフィル負荷の高いタスク (1862.40 tok/s) を主導しました。デルはデコードのシナリオに優れていました。 FB8 量子化では、プリフィルを多く使用するスループット (3088.62 tok/s) では GIGABYTE がトップとなり、デコード タスク (705.77 tok/s) では Dell がトップでした。

デュアル スパーク システムのピーク出力の概要


モデル
シナリオ(BS-64)
デルのピーク出力
GIGABYTEのピーク出力
HPピーク出力
GPT-OSS-120B
等しいISL/OSL
463.97トーク/秒
497.26トーク/秒
504.88トーク/秒
GPT-OSS-120B
プレフィルヘビー
419.56トーク/秒
417.34トーク/秒
441.63トーク/秒
GPT-OSS-120B
デコードヘビー
451.18トーク/秒
494.37 トーク/秒
474.85トーク/秒
GPT-OSS-20B
等しいISL/OSL
976.77トーク/秒
952.31トーク/秒
915.72トーク/秒
GPT-OSS-20B
プレフィルヘビー
852.39トーク/秒
802.37 トーク/秒
757.05トーク/秒
GPT-OSS-20B
デコードヘビー
938.65トーク/秒
945.55トーク/秒
865.78トーク/秒
ラマ-3.1-8B-命令
等しいISL/OSL
689.53トーク/秒
687.48トーク/秒
618.87トーク/秒
ラマ-3.1-8B-命令
プレフィルヘビー
515.45トーク/秒
539.27トーク/秒
463.39 トーク/秒
ラマ-3.1-8B-命令
デコードヘビー
581.43トーク/秒
576.91トーク/秒
531.07トーク/秒
ラマ-3.1-8B-FP4
等しいISL/OSL
1427.39トーク/秒
1458.86トーク/秒
1413.51トーク/秒
ラマ-3.1-8B-FP4
プレフィルヘビー
884.22トーク/秒
954.23トーク/秒
843.57トーク/秒
ラマ-3.1-8B-FP4
デコードヘビー
1008.98トーク/秒
1007.23トーク/秒
943.73トーク/秒
ラマ-3.1-8B-FP8
等しいISL/OSL
1105.42トーク/秒
1089.85トーク/秒
1076.68トーク/秒
ラマ-3.1-8B-FP8
プレフィルヘビー
759.50トーク/秒
827.40トーク/秒
725.51トーク/秒
ラマ-3.1-8B-FP8
デコードヘビー
862.33トーク/秒
855.81トーク/秒
800.78トーク/秒
ミストラル-小-3.1-24B
等しいISL/OSL
249.77トーク/秒
255.09トーク/秒
239.09トーク/秒
ミストラル-小-3.1-24B
プレフィルヘビー
216.01トーク/秒
214.38トーク/秒
197.92トーク/秒
ミストラル-小-3.1-24B
デコードヘビー
238.44トーク/秒
237.97トーク/秒
221.41トーク/秒


結論


Dell、GIGABYTE、および HP Spark ユニッ​​トのパフォーマンス ギャップは無視できますが、バッチ固有のリードはわずかです。購入の決定では、些細なベンチマークの違いよりも、シャーシの設計、熱性能、保証、アフターサポートを優先する必要があります。並列処理戦略は、OEM のバリエーションよりもはるかに大きな影響を及ぼします。PP はバッチ推論では TP よりも優れていますが、TP は単一ストリームの低遅延の対話に適しています。 NVIDIA の TP 推奨事項は、運用インフラストラクチャではなく対話型学習デバイスとしての Spark の位置付けと一致しています。デュアルノード Spark クラスターは、分散型 AI のための手頃な価格の教育プラットフォームとして機能します。今後のテストでは、大規模なクラスターとエンドツーエンドの小規模モデルのトレーニングがカバーされる予定で、ラボの 800Gb スイッチの導入は保留されています。

北京乾興解放科技有限公司
サンディ・ヤン/グローバル戦略ディレクター
WhatsApp / WeChat: +86 13426366826
電子メール: yangyd@qianxingdata.com
ウェブサイト: www.qianxingdata.com/www.storagesserver.com
ビジネスの焦点:
ICTプロダクト流通/システムインテグレーション&サービス/インフラソリューション
20 年以上の IT 流通経験を持つ当社は、主要な世界的ブランドと提携して、信頼性の高い製品とプロフェッショナルなサービスを提供しています。
「テクノロジーを活用してインテリジェントな世界を構築する」信頼できる ICT 製品サービス プロバイダー!
連絡先の詳細
Beijing Qianxing Jietong Technology Co., Ltd.

コンタクトパーソン: Ms. Sandy Yang

電話番号: 13426366826

私達に直接お問い合わせを送信 (0 / 3000)