ホーム事例

2Uで300GB/s: Dell PowerEdge R7725xdはストレージパフォーマンスに対する期待をリセットする

すべての製品

棚貯蔵サーバー
(165)

華為技術の融合サーバー
(31)

Dell Poweredgeサーバー
(59)

H3Cサーバー
(30)

データ通信スイッチ
(97)

WLAN装置
(21)

スマートな無線ルーター
(10)

ハード・ドライブHDD
(24)

内部ハード・ドライブSSD
(16)

Geforceのグラフィックス・カード
(27)

INTEL CPUプロセッサ
(20)

サーバー記憶RAM
(6)

改装された貯蔵サーバー
(6)

SFPのトランシーバーモジュール
(4)

繊維のチャネルスイッチ
(42)

認証

顧客の検討

北京Qianxing Jietongの技術Co.、株式会社の販売スタッフは非常に専門および忍耐強い。それらは引用語句をすぐに提供してもいい。プロダクトの質そして包装はまた非常によい。私達の協同は非常に滑らかである。

—— 《のFestfing DVの》 LLC

私がIntel CPUおよび東芝SSDを緊急に捜していたときに、北京Qianxing Jietongの技術Co.、株式会社からのサンディは私に多くの助けを与え、私に私がすぐに必要としたプロダクトを得た。私は実際に彼女を認める。

—— キティ円

北京Qianxing Jietongの技術Co.、株式会社のサンディは私がサーバーを買う時間の構成間違いを私に思い出させることができる非常に注意深いセールスマンである。エンジニアはまた非常に専門で、すぐにテストプロセスを完了できる。

—— Strelkin Mikhail Vladimirovich

北京千星捷通との仕事は大変満足しています。製品の品質は素晴らしく、納期も常に守られています。営業チームはプロフェッショナルで、忍耐強く、私たちの質問にすべて丁寧に対応してくれます。彼らのサポートに心から感謝しており、長期的なパートナーシップを期待しています。強くお勧めします！

—— アフマド・ナビド

品質: 提供者との素晴らしい経験. MikroTik RB3011は既に使用されていましたが,非常に良い状態で,すべてが完璧に動作しています. コミュニケーションは迅速でスムーズでした.そして私の懸念はすぐに解決されました信頼性の高いサプライヤーです強くお勧めします

—— ゲラン・コレシオ

オンラインです

2Uで300GB/s: Dell PowerEdge R7725xdはストレージパフォーマンスに対する期待をリセットする

March 12, 2026

一部のサーバーは既存の機能を強化するだけですが、他のサーバーは可能性を完全に再定義します。Dell PowerEdge R7725xd は、後者のカテゴリーにしっかりと位置付けられます。最近のテストでは、24 台の Micron 9550 PRO PCIe Gen5 NVMe SSD と 4 台の 2x 200GbE ネットワークインターフェイスカード (NIC) を搭載したこの 2U サーバーは、これまで評価したどのシステムよりも高い生ストレージスループットを達成しました。内部では、プラットフォームは NVMe ストレージプール全体で 300 GB/s 以上のスループットを維持し、ネットワーク上では標準的な RDMA テクノロジーを使用して 160 GB/s を提供しました。これらすべてに不要な複雑さを追加することなく実現しました。

Dell PowerEdge R7725xd

これは単なる高速ストレージサーバーではなく、データ集約型コンピューティングのアーキテクチャを変革するシステムです。今日の AI トレーニングおよび推論パイプラインは、GPU の処理能力ではなく、データのステージング、ストリーミング、シャッフル、チェックポイント処理の速度によって制限されることがよくあります。ストレージシステムがデータの要求に追いつけない場合、高性能 GPU ノードはアイドル状態になります。これらの制約を克服するために、チームはキャッシュ、過剰にプロビジョニングされたハードウェア、および複雑な階層化戦略に依存して、アクセラレータが投資に見合うだけの速度でデータを受信できるようにすることがよくあります。

Dell PowerEdge R7725xd は、このボトルネックを根本から解決します。このサーバーは 24 ベイの U.2 バックプレーンを中心に構築されており、各ドライブは AMD EPYC CPU コンプレックスに直接接続される専用の PCIe Gen5 x4 リンクを備えています。ファンアウト設計による帯域幅のスロットリングはなく、ミッドプレーンエクスポーダーを使用して同時実行性を低下させることもありません。ハードウェアはリソース競合なしでスループットを集約するように設計されているため、パフォーマンスはスムーズにスケールします。典型的な 2 ソケット構成では、CPU は 4 つの XGMI 接続でリンクされ、ソケット間通信を行います。R7725xd では、これらのリンクの 1 つが再利用され、CPU あたり追加の 16 レーンの PCIe Gen5 が追加され、サーバーは合計 160 レーンの PCIe Gen5 を備えています。そのうち 96 レーンはフロント SSD ベイに割り当てられ、64 レーンは 4 つの後部 PCIe スロット用に予約されています。持続的な書き込みワークロードと高い耐久性で設計された Micron の 9550 PRO SSD と組み合わせると、このシステムはチェックポイント負荷の高い連続ストリーミングワークロードをサポートできる高スループットデータエンジンになります。

このアーキテクチャ上に PEAK:AIO を実装し、並列サブミッションパスを活用して、同時実行性が増加しても効率を維持しました。その結果は、印象的なピークパフォーマンスだけでなく、高負荷下での一貫した持続パフォーマンスでした。このプラットフォームは、前処理、トレーニング、またはデータ変換のためのローカル実行ノードとして機能することも、ネットワーク経由で複数の GPU システムに高帯域幅ストレージを提供することもできます。境界を押し広げたいユーザーにとっては、これら両方のタスクを同時に処理することも可能です。

主なポイント

単一ノードでの前例のないスループット: R7725xd は 300 GB/s 以上の内部帯域幅と 160 GB/s の NVMe-oF RDMA を維持し、2U シャーシ内でマルチノードストレージクラスターに匹敵します。
真の Gen5 アーキテクチャ、スイッチなし、ファンアウトなし: 24 台の Micron 9550 PRO SSD はすべて、CPU コンプレックスから直接専用の x4 PCIe Gen5 レーンを受信し、競合なしでラインレートスケーリングを可能にします。
AMD EPYC 9005 シリーズ搭載: デュアル AMD EPYC 9575F プロセッサは、持続的な高同時実行 I/O に必要なレーン数、メモリ帯域幅、および NUMA トポロジを提供します。
AI、分析、およびチェックポイント負荷の高いワークロード向けに設計: このシステムは、最新の GPU パイプラインを停滞させる I/O ボトルネックを解消し、連続した高帯域幅データ配信を可能にします。
PEAK:AIO が完全な並列処理を解き放つ: PEAK:AIO のソフトウェアスタックは、負荷下でキュー構造を飽和状態に保ち、魅力的なドル/GB 比でエンタープライズパフォーマンスを提供します。

NVMe スループットのために特別に設計

最新世代のサーバーの中で、Dell はストレージ密度の高いサーバーセットアップに PCIe スイッチを組み込むことから離れています。PowerEdge R770 や R7725 などのモデルは、最大 16 台の SSD をサポートする PCIe Gen5 x4 ベイを備えており、より大きなストレージバックプレーンセットアップを使用する場合は x2 ベイに切り替わります。PowerEdge R760 などの前世代のサーバーには、24 ベイ NVMe 構成に PCIe スイッチが含まれていました。ビルドを合理化し、PCIe スイッチによってもたらされる複雑さを排除するために、新しいサーバーはストレージ密度の高い構成で PCIe レーン数を減らすアプローチを採用しました。しかし、R7725xd の登場により、状況は変わりました。

標準の R7725 と R7725xd の主な違いは、プラットフォームが PCIe ルートコンプレックスリソースを割り当てる方法にあります。ベースの R7725 は、ストレージ、GPU 拡張、および汎用 I/O に PCIe レーンを分散します。「xd」バリアントは、NVMe サブシステムを PCIe 帯域幅の主要な消費者にするために、このリソース予算を再割り当てします。24 の U.2 ベイは CPU の PCIe Gen5 ルートに直接接続され、各 SSD は PCIe スイッチまたはリタイマーツリーを介して利用可能な共有アップリンクではなく、独自の x4 エンドポイントを備えています。これにより、各ドライブは独立したキュー構造とメモリコントローラーへの独立した DMA パスを持つことができます。

バックプレーンとライザートポロジは、NVMe パフォーマンスへのこの注力を反映しています。Dell は、NVMe コネクタと PCIe スロットを両方の AMD EPYC ソケットに分散しているため、各プロセッサはドライブセットの一部を直接制御できます。実際には、これにより 2 つの対称 NVMe ドメインが作成され、それぞれがローカルレイテンシ特性と完全な読み書き同時実行性を備えています。4 台の Broadcom デュアルポート 200GbE NIC をアドインカードとしてインストールした場合、それらのスロット配置により、各 NIC は対応する NVMe グループに整列された PCIe ドメインに配置されました。NVMe-over-RDMA では、これによりネットワークトラフィックは、関連するドライブ I/O を処理するソケットにローカルに留まり、高負荷下でレイテンシを追加し帯域幅を消費するソケット間 Infinity Fabric ホップを回避しました。

熱性能も持続的なスループットをサポートします。U.2 は、定義されたエアフローチャネルと各デバイスの予測可能なヒートシンク表面積を提供するため、高密度 Gen5 構成で際立った選択肢であり続けています。R7725xd の高静圧ファンモジュールとシャーシダクトは、24 ベイすべてにわたって安定したエアフローを維持し、フルドライブ書き込みワークロードがスロットリングなしで継続的に実行できるようにします。機械設計は電気アーキテクチャを補完します。プラットフォームは負荷下で 24 台の同時 Gen5 デバイスを冷却するように設計されているため、各ドライブはフルレートパフォーマンスを持続できます。

ルートコンプレックスのアライメント、一貫した非ユニフォームメモリアクセス (NUMA) レーンレイアウト、ソケットアウェア NIC 配置、および熱的に安定した U.2 パッケージのこの組み合わせにより、システムはラインレート I/O を大規模に達成できます。このアーキテクチャはボトルネックを排除し、パフォーマンスの可能性を最大化します。

Dell PowerEdge R7725xd iDRAC 10 の概要

テストした他の多くの第 17 世代プラットフォームと同様に、この世代の R7725xd は Dell の新しい iDRAC 10 プラットフォームを特徴としており、リモート管理、ヘルスモニタリング、および帯域外制御の中心ハブとして機能します。ダッシュボードビューは、全体的なシステムヘルス、ストレージステータス、および最近のアクティビティの即時概要を提供します。テストユニットでは、システムおよびストレージのヘルスレポートは緑色のステータスを示しており、サーバーが期待どおりに動作していることを確認しています。モデル、ホスト名、BIOS バージョン、iDRAC ファームウェアレベル、IP アドレス、ライセンス情報などの主要なシステム詳細は、インターフェイスの右側に表示されます。

ダッシュボードには、完了した、保留中、および進行中の操作を示すタスクサマリーパネルも含まれています。その下には、最近のイベントのログがあり、シャーシ侵入アラートと電源供給メッセージをキャプチャしており、より深いメニューに移動することなくハードウェア状態の変更を迅速に確認できます。仮想コンソールパネルは右下隅にあり、完全なリモート KVM コントロールを可能にします。

iDRAC 10 のストレージセクションは、R7725xd にインストールされているすべての物理ディスクの完全な概要を提供します。サマリーパネルには、接続されているすべてのドライブの高レベルカウントが表示され、ドライブの状態を示す視覚的な円グラフが付属しています。この構成では、24 台の NVMe SSD がアクティブで準備完了として報告されており、さらに 2 台のブートデバイスが、プライマリフロント NVMe バンクとは別にシステムに存在します。

右側には、ディスクサマリーパネルがあり、物理ディスクと関連する仮想ディスクに分解されています。R7725xd は従来の RAID コントローラーなしのダイレクト NVMe アーキテクチャを使用しているため、すべてのドライブは非 RAID として報告され、個別にアドレス指定可能であり、大規模 NVMe プールおよび SDS プラットフォーム向けのシステムの設計と一致しています。

ステータスサマリーの下にある、最近ログされたストレージイベント領域には、各 PCIe SSD の挿入ログがベイとスロットごとに整理されてリストされています。この記録は、すべてのドライブベイでの適切な検出を確認し、シート、ケーブリング、またはホットスワップアクティビティの問題を特定するのに役立ちます。大規模なデプロイメントでは、これらのログはドライブのプロビジョニングを追跡したり、容量が期待どおりに設定されていることを確認したりするのに役立ちます。

最後のスクリーンショットは、iDRAC10 内の詳細な NVMe デバイスビューを示しています。システムにインストールされている各 NVMe ドライブは、ステータス、容量、およびベイの場所とともにリストされています。個々のドライブを選択すると、その特性の完全な内訳が開きます。

この例では、ドライブ情報パネルに、完全なモデル文字列、デバイスプロトコル、フォームファクター、およびネゴシエートされた PCIe 設定が表示されます。NVMe デバイスは 32 GT/s のリンク速度で動作し、x4 接続がネゴシエートされており、ドライブがシステムの PCIe Gen5 バックプレーンでフル帯域幅で動作していることを確認しています。情報セクションには、耐久性パーセンテージ、利用可能なスペアステータス、およびプロトコルタイプも報告されており、管理者はドライブのヘルスとライフサイクル予測を監視するのに役立ちます。

この詳細なドライブレポートは、リンク幅、ネゴシエートされた速度、およびメディアのヘルスがワークロードの動作とストレージパフォーマンスに直接影響する高密度 NVMe 構成で役立ちます。

全体として、iDRAC 10 インターフェイスは、R7725xd の NVMe ストレージアーキテクチャの明確でハードウェア中心のビューを提供し、リンクヘルス、ドライブステータス、およびシステム整合性の簡単な検証を一度に可能にします。

Dell PowerEdge R7725xd パフォーマンス

テスト前に、システムはバランスの取れた高性能な構成で設定されました。システムには 2 台の AMD EPYC 9575F プロセッサが搭載されており、それぞれに 64 個の高周波数コアがあり、6400 MT/s で動作する 24 個の 32GB DDR5 DIMM とペアになっています。ストレージについては、シャーシは 24 台の 15.36TB Micron 9550 PRO U.2 NVMe SSD で完全に構成されており、それぞれが専用の PCIe Gen5 x4 リンクを介して接続されています。これにより、合計生容量は 368.64 TB になり、Micron 9550 PRO ドライブは最大 14,000 MB/s のシーケンシャル読み取り速度と最大 10,000 MB/s のシーケンシャル書き込み速度を提供します。ネットワークは、4 台の Broadcom BCM57608 アダプターによって処理され、合計 8 つの 200Gb ポートを提供し、さらに 2 つの 10 ギガビットポートを提供する BCM57412 OCP NIC が追加されています。

テストシステム仕様

CPU: 2x AMD EPYC 9575F 64コア高周波数プロセッサ
メモリ: 24x 32GB DDR5 @ 6400MT/s
ストレージ: 24x 15.36TB Micron 9550 PRO U.2 ドライブ (それぞれ PCIe Gen5 x4 レーンで接続); 現在最大 128TB ドライブをサポートし、今後さらに大容量が登場予定
ネットワーク: 4x Broadcom BCM57608 2x200G NIC、1x BCM57412 2x10Gb OCP NIC
スイッチ: Dell PowerSwitch Z9664

FIO パフォーマンスベンチマーク

PowerEdge R7725xd のストレージパフォーマンスを測定するために、業界標準のメトリックと FIO ツールを使用しました。このセクションでは、次の FIO ベンチマークに焦点を当てます:

ランダム 4K – 1M
シーケンシャル 4K – 1M

FIO – ローカル – 帯域幅

Dell PowerEdge R7725xd 内の 24 台の PCIe Gen5 NVMe ドライブへのローカルアクセスをテストすると、各ドライブがフル x4 レーン PCIe Gen5 リンクを使用して CPU に接続されているプラットフォームから期待されるとおりの結果が得られます。ネットワークレイヤーが関与しないため、これは Dell の Gen5 ストレージレイアウトの純粋な内部スループットと、AMD EPYC プラットフォームの PCIe 帯域幅が制限なく機能していることを示しています。

シーケンシャル読み取りは 184 GB/s で 4K ブロックから始まり、ブロックサイズが増加するにつれて急速にスケールします。512K から 1M では、サーバーは一貫して 312 ～ 314 GB/s を維持しており、システムが 24 x 4 Gen5 レーンすべてを、コントローラー段階のボトルネックなしで持続的な読み取り帯域幅にどれだけうまく集約できるかを示す強力な指標です。

シーケンシャル書き込みは異なる曲線に従いますが、期待される範囲内にしっかりと収まります。149 GB/s から始まり、結果は 100 GB/s 台半ばまで上昇し、100 万で 182 GB/s に達します。これは、Micron 9550 PRO SSD の書き込み動作と、これほど多くの独立したデバイスにわたる高並列 NVMe 書き込みに固有のオーバーヘッドと一致しています。

ランダム読み取りパフォーマンスもハイライトです。システムは、最小ブロックサイズで約 300 GB/s の速度を達成し、中間範囲でわずかに低下し、その後、より大きなブロックサイズで 200 GB/s 台後半から 300 GB/s 台前半に回復します。1M では、ランダム読み取りは最大 318 GB/s に達し、プラットフォームが混合操作を 24 台のドライブすべてに均等に分散する能力を示しています。

ランダム書き込みは、広範な NVMe セットにわたる分散メタデータと書き込み割り当てタスクでは、より低いレートになります。テストのほとんどで結果は 140 ～ 160 GB/s の範囲に留まり、1M では 100 GB/s 未満に低下します。

FIO – ローカル – IOPS

IOPS 側を見ると、R7725xd は堅牢な小ブロックパフォーマンスを示しており、要求レートは、より大きなブロックサイズがワークロードを帯域幅主導のプロファイルにシフトする前に、数千万に達します。

4K では、読み取りは 4490 万 IOPS、書き込みは 3630 万 IOPS に達します。ランダム読み取りはさらに高いレベルの 7140 万 IOPS に達し、システムが高キューワークロードをすべてのドライブに効率的に分散する能力を示しています。これらの値はブロックサイズが増加するにつれて自然に低下しますが、8K、16K、および 32K の範囲で進行は一貫しています。

16K および 32K ブロックでは、読み取りは 1740 万および 835 万 IOPS に落ち着き、ランダム読み取りは 1650 万および 815 万 IOPS で密接に一致します。書き込みは予想されるパターンに従い、より低く追跡しますが、シーケンシャルおよびランダムアクセスパターンの両方で安定しています。

64K 以上に進むと、テストは純粋な IOPS からより帯域幅に制約されるシナリオに移行します。IOPS は数百万台前半に低下し、最終的には数十万台に低下します。1M ブロックサイズでは、読み取り IOPS は約 300K、書き込みは約 174K になり、ランダム操作は同じ範囲で終了します。

全体として、ローカル IOPS の結果は、小ブロック全体で非常に高いキューデプスワークロードを持続するシステムの能力を明確に示しており、転送が増加して帯域幅が支配的な要因になると予測可能なスケーリングが行われます。

PEAK:AIO: Dell PowerEdge R7725xd がこのワークロードに適している理由

PEAK:AIO は、通常、AI トレーニング、推論パイプライン、金融モデリング、およびリアルタイム分析のために、非常に高速で低レイテンシの大規模データセットへのアクセスを必要とする環境向けに設計されています。このプラットフォームは、高密度 NVMe ストレージ、バランスの取れた PCIe 帯域幅、および大規模な予測可能なレイテンシで機能します。これらの要件を満たすには、基盤となるハードウェアは、同時高負荷下で一貫した再現可能なパフォーマンスを維持しながら、持続的なスループットを提供する必要があります。

ここで、Dell PowerEdge R7725xd は PEAK:AIO と自然に一致します。このシステムのアーキテクチャは、PCIe Gen5 リソースを最大化するように設計されており、従来の RAID コントローラーに依存することなく、24 個のフロントマウント U.2 NVMe ベイの全帯域幅を CPU に直接公開します。このレイアウトにより、PEAK:AIO は最新の NVMe ベースのデータパイプラインから期待される並列処理とレイテンシプロファイルが得られます。システム構成では、NVMe SSD を 2 つの RAID0 グループに分割しました。

テストされたシナリオでは、R7725xd に接続された 2 つのクライアントシステムを使用しました。各システムには Broadcom BCM57608 2x 200G NIC が搭載されていました。これにより、合計 4 つの 200G アップリンクが各クライアントに供給され、R7725xd は PEAK:AIO デプロイメントが本番環境で見られるものと同様の現実的な高性能構成に押し上げられました。このレベルのネットワーク帯域幅により、NIC レイヤーでボトルネックになることなく、NVMe サブシステム、PCIe トポロジ、および CPU インターコネクトを完全にストレステストするためのヘッドルームが得られました。

その結果、PEAK:AIO ワークロードと効果的に連携するプラットフォームが生まれました。R7725xd は、高密度 NVMe 容量、PCIe Gen5 スループット、並列処理のためのデュアル AMD EPYC 9005 プロセッサ、およびクライアントあたり数百ギガビットのマルチクライアントデータ取り込みをサポートするネットワーク機能を提供します。これらの特性はすべて、PEAK:AIO のパフォーマンス期待値を達成するための基盤となります。

PEAK:AIO – NVMe-oF RDMA – 帯域幅

PEAK:AIO を搭載した PowerEdge R7725xd で NVMe-oF RDMA 帯域幅の結果を調べると、全体的な傾向は、これほど多くの PCIe およびネットワーク帯域幅を持つシステムから期待されるものとまったく同じです。ブロックサイズが増加するにつれて、スループットは急速に上昇し、プラットフォームの実用的な制限近くで安定します。

小ブロックサイズでは、パフォーマンスは読み書きともに 20GB/s 台半ばから始まり、これは 4K および 8K 転送がスループットパスよりも IOPS パスをはるかに強くプッシュするため、正常です。16K および 32K ブロックに入ると、パイプラインが開きます。読み取りは 32K で約 154 GB/s にジャンプし、160 GB/s の範囲に上昇し続け、これは 4 つの 200 Gb/s リンクを介したデュアルクライアントセットアップが着地すると予想される場所です。

ランダム読み取りパフォーマンスはシーケンシャルとほぼ完全に一致します。PEAK:AIO はコマンドキューを適切に供給するため、ランダム読み取り帯域幅はシーケンシャル読み取り帯域幅とほぼ同じように上昇し、32K から 1M まで約 159 ～ 161 GB/s に落ち着きます。これは、ストレージスタックが混合アクセスパターン下でボトルネックになっておらず、R7725xd の PCIe トポロジが 24 台の Gen5 NVMe ドライブ全体に負荷を均等に分散していることを示しています。

書き込みパフォーマンスは同様の曲線に従いますが、読み取りよりもわずかに低い値でピークに達します。シーケンシャル書き込みは、中間サイズのブロックでは 140 ～ 148 GB/s の範囲に留まり、128K では約 117 GB/s に低下しますが、ブロックサイズが増加すると回復します。ランダム書き込みは異なり、追加のオーバーヘッドを導入する混合キューワークロードでは正常な 110 ～ 117 GB/s に近くなります。

このセクションの主なポイントは、R7725xd が複数のクライアントがシステムを限界まで駆動している場合でも、NVMe-oF 経由で非常に高い帯域幅を持続することに問題がないことです。ブロックサイズが 32K 以上になると、サーバーは利用可能なネットワークおよびストレージ帯域幅を一貫して飽和させます。これは、PEAK:AIO が抽出するように設計されているパフォーマンスの種類であり、これらの結果は、実際の条件下でのプラットフォームのスケーリング能力の強力な検証となります。

PEAK AIO – NVMe-oF RDMA IOPS

IOPS 側では、PowerEdge R7725xd は堅牢な小ブロックパフォーマンスを示していますが、当初は予想よりも低い数値が観察されました。この問題は、将来的にネットワークドライバーサポートの改善で対処されると予想されます。それでも、全体的なスケーリング傾向は、ブロックサイズが増加したときの NVMe-oF RDMA の典型的な動作とまったく同じです。

最小ブロックサイズでは、システムはシーケンシャルおよびランダムワークロード全体で 600 万 IOPS 以上を提供できます。読み取り、書き込み、ランダム読み取り、ランダム書き込みはすべて、4K および 8K でほぼ同じ範囲にあり、フロントエンドクライアント、PCIe インフラストラクチャ、および NVMe ドライブ自体が要求レートに対応するのに問題がないことを示しています。

ブロックサイズが増加すると、IOPS の予想される低下が始まります。32K では、読み取りは約 470 万 IOPS に達し、書き込みは約 440 万 IOPS でわずかに遅れます。ランダム書き込みはここで最も大きな影響を受け、約 330 万 IOPS に低下し、混合アクセスパターンによって導入される追加のキューと CPU オーバーヘッドと一致しています。

大きなブロックに進むと、IOPS は予測可能な線形パターンで低下し続けます。256K および 512K 転送に達する頃には、スループットが主要なメトリックになり、IOPS は自然に数十万台前半に低下します。1M ブロックサイズでは、すべてのワークロードが 140K ～ 153K IOPS に収束し、前のセクションで見た帯域幅の数値と一致しています。

GPUDirect Storage パフォーマンス

R7725xd で実施したテストの 1 つは、Magnum IO GPUDirect Storage (GDS) テストでした。GDS は NVIDIA によって開発された機能であり、GPU が NVMe ドライブまたはその他の高速ストレージデバイスに格納されたデータにアクセスする際に CPU をバイパスできるようにします。GDS は、CPU とシステムメモリを介してデータをルーティングする代わりに、GPU とストレージデバイス間の直接通信を可能にし、レイテンシを大幅に削減し、データスループットを向上させます。

GPUDirect Storage の仕組み

従来、GPU が NVMe ドライブに格納されたデータを処理する場合、データは GPU に到達する前に CPU とシステムメモリを通過する必要があります。このプロセスは、CPU が中間業者となり、レイテンシを追加し、貴重なシステムリソースを消費するため、ボトルネックを引き起こします。GPUDirect Storage は、GPU が PCIe バスを介してストレージデバイスから直接データにアクセスできるようにすることで、この非効率性を排除します。この直接パスはデータ移動のオーバーヘッドを削減し、より高速で効率的なデータ転送を可能にします。

特にディープラーニングを含む AI ワークロードは、データ集約型です。大規模なニューラルネットワークのトレーニングにはテラバイト単位のデータの処理が必要であり、データ転送の遅延は GPU の利用率低下とトレーニング時間の延長につながる可能性があります。GPUDirect Storage は、データを可能な限り迅速に GPU に配信することでこの課題に対処し、アイドル時間を最小限に抑え、計算効率を最大化します。

さらに、GDS は、ビデオ処理、自然言語処理、またはリアルタイム推論など、大規模データセットのストリーミングを伴うワークロードに特に役立ちます。CPU への依存を減らすことで、GDS はデータ移動を加速し、CPU リソースを他のタスクに解放し、全体的なシステムパフォーマンスをさらに向上させます。

生の帯域幅を超えて、NVMe-oF (TCP/RDMA) との GPUDirect は超低レイテンシ I/O も提供します。これにより、GPU がデータ不足になることはなく、リアルタイム AI 推論、分析パイプライン、およびビデオ再生に最適なシステムとなります。

GDSIO 読み取りシーケンシャル

GDSIO を使用して 1 つのクライアントで PEAK:AIO を調べると、ブロックサイズとスレッド数の両方が増加するにつれて、読み取りスループットは明確なスケーリングパターンを示します。この単一クライアントは 2 つの 400G リンクを介して接続されており、合計で 90 GB/s に制限されていました。

最小ブロックサイズと低スレッド数では、パフォーマンスは控えめで、4K 読み取りはシングルスレッドで約 189 MiB/s から始まります。スレッドの並列処理を増やすとすぐに、システムは即座に応答し、4 スレッドで 691MiB/s に達し、より大きなブロックに進むにつれてマルチ GiB/s の範囲に突入します。

中間ブロックサイズは、スレッド数に対する感度が最も高くなります。32K では、スループットはシングルスレッドの 1.3 GiB/s から 64 スレッドで約 20 GiB/s まで増加し、それ以降はわずかに低下するだけです。64K および 128K でも同様のパターンが現れ、システムは低並列処理の低単桁 GiB/s から、ワークロードがスケールするにつれて 30 GiB/s 以上に移行します。

より大きなブロックサイズに達すると、システムが単一クライアントのパフォーマンス上限に近づくにつれて、スループットは安定し始めます。1 MiB では、パフォーマンスは 1 つのスレッドの 11GiB/s から、高スレッド数で約 88GiB/s まで上昇します。5 MiB および 10 MiB の転送は同じプラトーを示し、テストが 64、128、または 256 スレッドのいずれで実行されていても、約 89 ～ 90GiB/s でピークに達します。

GDSIO 書き込みシーケンシャル

書き込み側では、スケーリング動作は読み取りと同様のパターンに従いますが、ほとんどのブロックサイズでパフォーマンスはわずかに低くなります。これはシーケンシャル書き込みワークロードでは予想されることです。最小ブロックサイズでは、スループットは 4K のシングルスレッドで 165 MiB/s から始まり、並列処理が増加するにつれて着実に上昇します。4 スレッドでは、それが 619MiB/s 強まで増加し、8 スレッドで 1GiB/s を超えます。

中間ブロックサイズは、スレッド数が増加するにつれてより大きな増加を示します。32K では、スループットは 1 GiB/s 未満から始まり、より高いスレッドレベルで 21 GiB/s 以上にスケールします。64K および 128K の範囲は傾向を継続し、低単桁 GiB/s から、ワークロードがより並列になるにつれて中 30 GiB/s および 50 GiB/s に移行します。

より大きな転送は、システムが自然な書き込みスループット上限に落ち着くときです。1 MiB では、パフォーマンスはシングルスレッドの 13.3GiB/s から、高スレッド数で 90 GiB/s 未満まで上昇します。5 MiB および 10 MiB テストは同様のパターンに従い、システムが 64、128、または 256 スレッドのいずれで実行されていても、結果は 90 GiB/s 前後でピークに達します。

Gen5 時代のパフォーマンスの再定義

Dell PowerEdge R7725xd は、従来のストレージサーバーの役割を超えています。データセンターラック内の帯域幅がどのようにオーケストレーションされるかという点で、画期的な変化をもたらします。PCIe スイッチを完全に排除し、各 NVMe ドライブに CPU への排他的な直接接続を提供することで、Dell はスループットが線形にスケールし、熱挙動が完全に予測可能で、高同時実行性が設計上の課題ではなくパフォーマンスの利点として活用されるプラットフォームを設計しました。

Micron の 9550 PRO SSD および PEAK:AIO ソフトウェアの並列 I/O 機能と組み合わせると、R7725xd は高密度 NVMe エンクロージャーから本格的なデータエンジンへと進化します。コンパクトな 2U フォームファクター内で、サーバーはローカル PCIe ファブリックを飽和させるだけでなく、RDMA を介して GPU にラインレートで供給したり、コンピューティングとストレージの両方のワークロードを同時に実行したりすることもできます。

Dell PowerEdge R7725xd heroDell PowerEdge R7725xd

実際のシナリオでは、この強力な構成は 300 GB/s 以上の内部スループットと 160 GB/s のネットワークスループットを提供します。このパフォー

PREV: Dell Technologiesの新製品PowerVault MD JBODがデータ爆発を抑制

NEXT: Broadcom MegaRAID 9670W-16i RAIDカードレビュー

連絡先の詳細

Beijing Qianxing Jietong Technology Co., Ltd.

コンタクトパーソン: Ms. Sandy Yang

電話番号: 13426366826

について

棚貯蔵サーバー: 12湾1Uラックマウント式サーバーLenovo ThinkSystem SR630の棚サーバー; ThinkSystem SR250 V2 4SFFの棚貯蔵サーバーIntel Xeon E-2378Gプロセッサ; Intel C621Aの棚貯蔵サーバーInspur NF5180M6 1Uのラックマウントサーバー

華為技術の融合サーバー: FusionServer 5288 V6 4Uの棚サーバー32 DDR4 DIMMs 44の3.5インチのハードディスク; 超高密度華為技術の融合サーバー1Uネットワークの貯蔵サーバー1288H V5; 新しいGEN OceanStor 5310華為技術の棚サーバー雑種の抜け目がない貯蔵

メッセージ