ホーム事例

NVIDIA DGX Spark クラスターのレビュー: Dell、GIGABYTE、HP での分散推論

すべての製品

棚貯蔵サーバー
(165)

華為技術の融合サーバー
(31)

Dell Poweredgeサーバー
(59)

H3Cサーバー
(31)

データ通信スイッチ
(96)

WLAN装置
(21)

スマートな無線ルーター
(10)

ハード・ドライブHDD
(78)

内部ハード・ドライブSSD
(16)

Geforceのグラフィックス・カード
(27)

INTEL CPUプロセッサ
(20)

サーバー記憶RAM
(6)

改装された貯蔵サーバー
(6)

SFPのトランシーバーモジュール
(4)

繊維のチャネルスイッチ
(42)

認証

顧客の検討

北京Qianxing Jietongの技術Co.、株式会社の販売スタッフは非常に専門および忍耐強い。それらは引用語句をすぐに提供してもいい。プロダクトの質そして包装はまた非常によい。私達の協同は非常に滑らかである。

—— 《のFestfing DVの》 LLC

私がIntel CPUおよび東芝SSDを緊急に捜していたときに、北京Qianxing Jietongの技術Co.、株式会社からのサンディは私に多くの助けを与え、私に私がすぐに必要としたプロダクトを得た。私は実際に彼女を認める。

—— キティ円

北京Qianxing Jietongの技術Co.、株式会社のサンディは私がサーバーを買う時間の構成間違いを私に思い出させることができる非常に注意深いセールスマンである。エンジニアはまた非常に専門で、すぐにテストプロセスを完了できる。

—— Strelkin Mikhail Vladimirovich

北京千星捷通との仕事は大変満足しています。製品の品質は素晴らしく、納期も常に守られています。営業チームはプロフェッショナルで、忍耐強く、私たちの質問にすべて丁寧に対応してくれます。彼らのサポートに心から感謝しており、長期的なパートナーシップを期待しています。強くお勧めします！

—— アフマド・ナビド

品質: 提供者との素晴らしい経験. MikroTik RB3011は既に使用されていましたが,非常に良い状態で,すべてが完璧に動作しています. コミュニケーションは迅速でスムーズでした.そして私の懸念はすぐに解決されました信頼性の高いサプライヤーです強くお勧めします

—— ゲラン・コレシオ

オンラインです

NVIDIA DGX Spark クラスターのレビュー: Dell、GIGABYTE、HP での分散推論

May 15, 2026

NVIDIA DGX Spark には 2 つの特徴が際立っています。それは、4,000 ドルのデスクトップユニットに 128 GB のユニファイドメモリを搭載し、もう 1 つは内蔵の 200 GB データセンターグレードのネットワークです。高速ファブリックにより通常のワークステーションとの差別化が図られ、かつてはラックマウント型サーバーのみに限定されていたマルチノードクラスタリングが可能になります。このレビューでは、さまざまなモデルとワークロードにわたる 2 ノード 200GbE クラスターの Dell、GIGABYTE、および HP Spark バリアントにわたる分散推論のベンチマークを評価します。また、NVIDIA のデフォルトのテンソル並列処理 (TP) を上回る別の分割方法であるパイプライン並列処理 (PP) も分析します。

200Gb ネットワークファブリック

各 Spark には、統合された ConnectX-7 SmartNIC とペアになった 2 つの QSFP56 ケージが装備されています。 PCIe Gen5 x4 帯域幅によって制限され、使用可能なネットワーク速度は 200Gb に制限されます。1 つのポートで全帯域幅に十分です。 2 番目のポートはトポロジの柔軟性を提供します。 3 つの一般的な構成が利用可能です。直接 Spark-to-Spark 200Gb リンク、デュアル 100Gb ポートによるスイッチ不要のリングトポロジ、NVMe-oF 高速ストレージアクセスを備えたハイブリッドクラスタリングです。 NVIDIA は、シングルユニットデスクトップ、検証済みの 2 ノードクラスター、および新しくリリースされた 4 ノードセットアップを販売しています。デュアル Spark 構成は、運用スタイルの推論にとって最も実用的であり、このテストの焦点です。

Spark クラスタリングの理論的根拠

主な利点はモデル容量の拡大です。リンクされた 2 つの Spark で、単一ユニットのメモリ制限を超える 120B パラメーターのモデルを実行できます。さらに重要なのは、このプラットフォームが手頃な価格の教育ツールとして機能することです。 NVIDIA は、初心者が AI ワークフローを学習できるように Spark を設計しており、モデルのデプロイ、微調整、PyTorch/JAX 開発をカバーする公式ガイドが含まれています。デュアルノードクラスターは、高価なデータセンターハードウェアを使用せずに、マルチノードの並列処理とネットワークのボトルネック分析をさらに学習します。特に、Spark は運用推論用に最適化されていません。 200GbE リンクはメモリ帯域幅とノード間の遅延によって制限され、内部 PCIe 接続よりも遅くなります。大規模なクラスターでは、トークンのスループットが低くなりパフォーマンスが大幅に低下するため、商用サービスではなく教育用途に制限されます。

パフォーマンステスト: PP 対 TP

並列処理戦略の選択

NVIDIA のデフォルトは TP で、各トランスフォーマー層が 2 つの GPU に分割され、頻繁に all-reduce データ交換が行われます。対照的に、PP はモデルをレイヤーごとに分割し、ノード間でアクティベーションを 1 回だけ転送します。 200GbE リンクでは、PP はノード間通信を最小限に抑えます。高いバッチサイズの大規模モデルの場合、PP は TP を大幅に上回ります。 TP は、単一リクエストの低遅延チャットシナリオでのみ優れています。

GPT-OSS-120B のテストでは、このギャップが確認されています。バッチサイズ 128 では、PP はバランスの取れたワークロードで 554.69 tok/s (TP の 2.20 倍高速) に達し、プリフィルの多いタスクでは 310.63 tok/s に対して 164.99 tok/s に達します。 TP はバッチサイズ 1 でのみリードします。Llama-3.1-8B のような小規模モデルの場合、軽量層の計算により TP がほとんどのバッチサイズを支配し、同時実行性が高い場合にのみ PP が TP を追い越します。

マルチモデルのベンチマーク結果 (PP=2)

GPT-OSSシリーズ

GPT-OSS-120B の場合、HP はバランスの取れたワークロード (504.88 tok/s) およびプレフィルの多いワークロード (441.63 tok/s) で最高のピークスループットを達成しました。 GIGABYTE はデコード負荷の高いテスト (494.37 tok/s) を主導しました。 GPT-OSS-20B では、デルがバランス型 (976.77 トークン/秒) およびプレフィル負荷の高いシナリオ (852.39 トークン/秒) のシナリオを支配し、GIGABYTE がデコードタスク (945.55 トークン/秒) をリードしました。

ラマ 3.1 8B バリアント

BF16 精度では、デルはバランスの取れたワークロード (689.53 tok/s) とデコードの多いワークロード (581.43 tok/s) をリードしました。 GIGABYTE はプレフィル負荷の高いテスト (539.27 tok/s) で勝利しました。 FP4 の最適化によりスループットが大幅に向上しました。GIGABYTE は、バランスの取れたタスク (1458.86 tok/s) とプリフィルの多いタスク (954.23 tok/s) を主導しました。 FP8 では、デルはバランスの取れたシナリオ (1105.42 トーク/秒) とデコードが多いシナリオ (862.33 トーク/秒) で狭いリードを維持しました。

ミストラル＆クウェンモデル

Mistral Small 3.1 24B では最小限のギャップが見られました。GIGABYTE はバランスの取れたワークロードで 255.09 tok/s でピークに達しました。 Qwen3 Coder 30B (A3B Base) では、GIGABYTE がプリフィル負荷の高いタスク (1862.40 tok/s) を主導しました。デルはデコードのシナリオに優れていました。 FB8 量子化では、プリフィルを多く使用するスループット (3088.62 tok/s) では GIGABYTE がトップとなり、デコードタスク (705.77 tok/s) では Dell がトップでした。

デュアルスパークシステムのピーク出力の概要

モデル	シナリオ（BS-64）	デルのピーク出力	GIGABYTEのピーク出力	HPピーク出力
GPT-OSS-120B	等しいISL/OSL	463.97トーク/秒	497.26トーク/秒	504.88トーク/秒
GPT-OSS-120B	プレフィルヘビー	419.56トーク/秒	417.34トーク/秒	441.63トーク/秒
GPT-OSS-120B	デコードヘビー	451.18トーク/秒	494.37 トーク/秒	474.85トーク/秒
GPT-OSS-20B	等しいISL/OSL	976.77トーク/秒	952.31トーク/秒	915.72トーク/秒
GPT-OSS-20B	プレフィルヘビー	852.39トーク/秒	802.37 トーク/秒	757.05トーク/秒
GPT-OSS-20B	デコードヘビー	938.65トーク/秒	945.55トーク/秒	865.78トーク/秒
ラマ-3.1-8B-命令	等しいISL/OSL	689.53トーク/秒	687.48トーク/秒	618.87トーク/秒
ラマ-3.1-8B-命令	プレフィルヘビー	515.45トーク/秒	539.27トーク/秒	463.39 トーク/秒
ラマ-3.1-8B-命令	デコードヘビー	581.43トーク/秒	576.91トーク/秒	531.07トーク/秒
ラマ-3.1-8B-FP4	等しいISL/OSL	1427.39トーク/秒	1458.86トーク/秒	1413.51トーク/秒
ラマ-3.1-8B-FP4	プレフィルヘビー	884.22トーク/秒	954.23トーク/秒	843.57トーク/秒
ラマ-3.1-8B-FP4	デコードヘビー	1008.98トーク/秒	1007.23トーク/秒	943.73トーク/秒
ラマ-3.1-8B-FP8	等しいISL/OSL	1105.42トーク/秒	1089.85トーク/秒	1076.68トーク/秒
ラマ-3.1-8B-FP8	プレフィルヘビー	759.50トーク/秒	827.40トーク/秒	725.51トーク/秒
ラマ-3.1-8B-FP8	デコードヘビー	862.33トーク/秒	855.81トーク/秒	800.78トーク/秒
ミストラル-小-3.1-24B	等しいISL/OSL	249.77トーク/秒	255.09トーク/秒	239.09トーク/秒
ミストラル-小-3.1-24B	プレフィルヘビー	216.01トーク/秒	214.38トーク/秒	197.92トーク/秒
ミストラル-小-3.1-24B	デコードヘビー	238.44トーク/秒	237.97トーク/秒	221.41トーク/秒

結論

Dell、GIGABYTE、および HP Spark ユニットのパフォーマンスギャップは無視できますが、バッチ固有のリードはわずかです。購入の決定では、些細なベンチマークの違いよりも、シャーシの設計、熱性能、保証、アフターサポートを優先する必要があります。並列処理戦略は、OEM のバリエーションよりもはるかに大きな影響を及ぼします。PP はバッチ推論では TP よりも優れていますが、TP は単一ストリームの低遅延の対話に適しています。 NVIDIA の TP 推奨事項は、運用インフラストラクチャではなく対話型学習デバイスとしての Spark の位置付けと一致しています。デュアルノード Spark クラスターは、分散型 AI のための手頃な価格の教育プラットフォームとして機能します。今後のテストでは、大規模なクラスターとエンドツーエンドの小規模モデルのトレーニングがカバーされる予定で、ラボの 800Gb スイッチの導入は保留されています。

北京乾興解放科技有限公司
サンディ・ヤン/グローバル戦略ディレクター
WhatsApp / WeChat: +86 13426366826
電子メール: yangyd@qianxingdata.com
ウェブサイト: www.qianxingdata.com/www.storagesserver.com
ビジネスの焦点:
ICTプロダクト流通/システムインテグレーション＆サービス/インフラソリューション
20 年以上の IT 流通経験を持つ当社は、主要な世界的ブランドと提携して、信頼性の高い製品とプロフェッショナルなサービスを提供しています。
「テクノロジーを活用してインテリジェントな世界を構築する」信頼できる ICT 製品サービスプロバイダー!

PREV: ORICO X50 レビュー: 携帯型SSDの収蔵庫でThunderbolt 5 スピード

NEXT: シゲートアイアンウルフPro 32TBレビュー:マルチベイNASのトップ・オブ・スタック容量

連絡先の詳細

Beijing Qianxing Jietong Technology Co., Ltd.

コンタクトパーソン: Ms. Sandy Yang

電話番号: 13426366826

NVIDIA DGX Spark クラスターのレビュー: Dell、GIGABYTE、HP での分散推論

棚貯蔵サーバー

華為技術の融合サーバー

Dell Poweredgeサーバー

H3Cサーバー

データ通信スイッチ

WLAN装置

スマートな無線ルーター

ハード・ドライブHDD

内部ハード・ドライブSSD

Geforceのグラフィックス・カード

INTEL CPUプロセッサ

サーバー記憶RAM

改装された貯蔵サーバー

SFPのトランシーバーモジュール

繊維のチャネルスイッチ

NVIDIA DGX Spark クラスターのレビュー: Dell、GIGABYTE、HP での分散推論

200Gb ネットワークファブリック

Spark クラスタリングの理論的根拠

パフォーマンステスト: PP 対 TP

並列処理戦略の選択

マルチモデルのベンチマーク結果 (PP=2)

GPT-OSSシリーズ

ラマ 3.1 8B バリアント

ミストラル＆クウェンモデル

デュアルスパークシステムのピーク出力の概要

結論

棚貯蔵サーバー

12湾1Uラックマウント式サーバーLenovo ThinkSystem SR630の棚サーバー

ThinkSystem SR250 V2 4SFFの棚貯蔵サーバーIntel Xeon E-2378Gプロセッサ

Intel C621Aの棚貯蔵サーバーInspur NF5180M6 1Uのラックマウントサーバー

華為技術の融合サーバー

FusionServer 5288 V6 4Uの棚サーバー32 DDR4 DIMMs 44の3.5インチのハードディスク

超高密度華為技術の融合サーバー1Uネットワークの貯蔵サーバー1288H V5

新しいGEN OceanStor 5310華為技術の棚サーバー雑種の抜け目がない貯蔵

NVIDIA DGX Spark クラスターのレビュー: Dell、GIGABYTE、HP での分散推論

NVIDIA DGX Spark クラスターのレビュー: Dell、GIGABYTE、HP での分散推論

200Gb ネットワーク ファブリック

Spark クラスタリングの理論的根拠

パフォーマンステスト: PP 対 TP

並列処理戦略の選択

マルチモデルのベンチマーク結果 (PP=2)

GPT-OSSシリーズ

ラマ 3.1 8B バリアント

ミストラル＆クウェンモデル

デュアル スパーク システムのピーク出力の概要

結論

200Gb ネットワークファブリック

デュアルスパークシステムのピーク出力の概要