主なポイント
- 単一ノードでの前例のないスループット: R7725xd は 300 GB/s 以上の内部帯域幅と 160 GB/s の NVMe-oF RDMA を維持し、2U シャーシ内でマルチノードストレージクラスターに匹敵します。
- 真の Gen5 アーキテクチャ、スイッチなし、ファンアウトなし: 24 台の Micron 9550 PRO SSD はすべて、CPU コンプレックスから直接専用の x4 PCIe Gen5 レーンを受信し、競合なしでラインレートスケーリングを可能にします。
- AMD EPYC 9005 シリーズ搭載: デュアル AMD EPYC 9575F プロセッサは、持続的な高同時実行 I/O に必要なレーン数、メモリ帯域幅、および NUMA トポロジを提供します。
- AI、分析、およびチェックポイント負荷の高いワークロード向けに設計: このシステムは、最新の GPU パイプラインを停滞させる I/O ボトルネックを解消し、連続した高帯域幅データ配信を可能にします。
- PEAK:AIO が完全な並列処理を解き放つ: PEAK:AIO のソフトウェアスタックは、負荷下でキュー構造を飽和状態に保ち、魅力的なドル/GB 比でエンタープライズパフォーマンスを提供します。
iDRAC 10 のストレージセクションは、R7725xd にインストールされているすべての物理ディスクの完全な概要を提供します。サマリーパネルには、接続されているすべてのドライブの高レベルカウントが表示され、ドライブの状態を示す視覚的な円グラフが付属しています。この構成では、24 台の NVMe SSD がアクティブで準備完了として報告されており、さらに 2 台のブートデバイスが、プライマリフロント NVMe バンクとは別にシステムに存在します。
右側には、ディスクサマリーパネルがあり、物理ディスクと関連する仮想ディスクに分解されています。R7725xd は従来の RAID コントローラーなしのダイレクト NVMe アーキテクチャを使用しているため、すべてのドライブは非 RAID として報告され、個別にアドレス指定可能であり、大規模 NVMe プールおよび SDS プラットフォーム向けのシステムの設計と一致しています。
ステータスサマリーの下にある、最近ログされたストレージイベント領域には、各 PCIe SSD の挿入ログがベイとスロットごとに整理されてリストされています。この記録は、すべてのドライブベイでの適切な検出を確認し、シート、ケーブリング、またはホットスワップアクティビティの問題を特定するのに役立ちます。大規模なデプロイメントでは、これらのログはドライブのプロビジョニングを追跡したり、容量が期待どおりに設定されていることを確認したりするのに役立ちます。
最後のスクリーンショットは、iDRAC10 内の詳細な NVMe デバイスビューを示しています。システムにインストールされている各 NVMe ドライブは、ステータス、容量、およびベイの場所とともにリストされています。個々のドライブを選択すると、その特性の完全な内訳が開きます。
この例では、ドライブ情報パネルに、完全なモデル文字列、デバイスプロトコル、フォームファクター、およびネゴシエートされた PCIe 設定が表示されます。NVMe デバイスは 32 GT/s のリンク速度で動作し、x4 接続がネゴシエートされており、ドライブがシステムの PCIe Gen5 バックプレーンでフル帯域幅で動作していることを確認しています。情報セクションには、耐久性パーセンテージ、利用可能なスペアステータス、およびプロトコルタイプも報告されており、管理者はドライブのヘルスとライフサイクル予測を監視するのに役立ちます。
この詳細なドライブレポートは、リンク幅、ネゴシエートされた速度、およびメディアのヘルスがワークロードの動作とストレージパフォーマンスに直接影響する高密度 NVMe 構成で役立ちます。
全体として、iDRAC 10 インターフェイスは、R7725xd の NVMe ストレージアーキテクチャの明確でハードウェア中心のビューを提供し、リンクヘルス、ドライブステータス、およびシステム整合性の簡単な検証を一度に可能にします。
Dell PowerEdge R7725xd パフォーマンス
テスト前に、システムはバランスの取れた高性能な構成で設定されました。システムには 2 台の AMD EPYC 9575F プロセッサが搭載されており、それぞれに 64 個の高周波数コアがあり、6400 MT/s で動作する 24 個の 32GB DDR5 DIMM とペアになっています。ストレージについては、シャーシは 24 台の 15.36TB Micron 9550 PRO U.2 NVMe SSD で完全に構成されており、それぞれが専用の PCIe Gen5 x4 リンクを介して接続されています。これにより、合計生容量は 368.64 TB になり、Micron 9550 PRO ドライブは最大 14,000 MB/s のシーケンシャル読み取り速度と最大 10,000 MB/s のシーケンシャル書き込み速度を提供します。ネットワークは、4 台の Broadcom BCM57608 アダプターによって処理され、合計 8 つの 200Gb ポートを提供し、さらに 2 つの 10 ギガビットポートを提供する BCM57412 OCP NIC が追加されています。
テストシステム仕様
- CPU: 2x AMD EPYC 9575F 64コア高周波数プロセッサ
- メモリ: 24x 32GB DDR5 @ 6400MT/s
- ストレージ: 24x 15.36TB Micron 9550 PRO U.2 ドライブ (それぞれ PCIe Gen5 x4 レーンで接続); 現在最大 128TB ドライブをサポートし、今後さらに大容量が登場予定
- ネットワーク: 4x Broadcom BCM57608 2x200G NIC、1x BCM57412 2x10Gb OCP NIC
- スイッチ: Dell PowerSwitch Z9664
FIO パフォーマンスベンチマーク
PowerEdge R7725xd のストレージパフォーマンスを測定するために、業界標準のメトリックと FIO ツールを使用しました。このセクションでは、次の FIO ベンチマークに焦点を当てます:
- ランダム 4K – 1M
- シーケンシャル 4K – 1M
FIO – ローカル – 帯域幅
Dell PowerEdge R7725xd 内の 24 台の PCIe Gen5 NVMe ドライブへのローカルアクセスをテストすると、各ドライブがフル x4 レーン PCIe Gen5 リンクを使用して CPU に接続されているプラットフォームから期待されるとおりの結果が得られます。ネットワークレイヤーが関与しないため、これは Dell の Gen5 ストレージレイアウトの純粋な内部スループットと、AMD EPYC プラットフォームの PCIe 帯域幅が制限なく機能していることを示しています。
シーケンシャル読み取りは 184 GB/s で 4K ブロックから始まり、ブロックサイズが増加するにつれて急速にスケールします。512K から 1M では、サーバーは一貫して 312 ~ 314 GB/s を維持しており、システムが 24 x 4 Gen5 レーンすべてを、コントローラー段階のボトルネックなしで持続的な読み取り帯域幅にどれだけうまく集約できるかを示す強力な指標です。
シーケンシャル書き込みは異なる曲線に従いますが、期待される範囲内にしっかりと収まります。149 GB/s から始まり、結果は 100 GB/s 台半ばまで上昇し、100 万で 182 GB/s に達します。これは、Micron 9550 PRO SSD の書き込み動作と、これほど多くの独立したデバイスにわたる高並列 NVMe 書き込みに固有のオーバーヘッドと一致しています。
ランダム読み取りパフォーマンスもハイライトです。システムは、最小ブロックサイズで約 300 GB/s の速度を達成し、中間範囲でわずかに低下し、その後、より大きなブロックサイズで 200 GB/s 台後半から 300 GB/s 台前半に回復します。1M では、ランダム読み取りは最大 318 GB/s に達し、プラットフォームが混合操作を 24 台のドライブすべてに均等に分散する能力を示しています。
ランダム書き込みは、広範な NVMe セットにわたる分散メタデータと書き込み割り当てタスクでは、より低いレートになります。テストのほとんどで結果は 140 ~ 160 GB/s の範囲に留まり、1M では 100 GB/s 未満に低下します。
FIO – ローカル – IOPS
IOPS 側を見ると、R7725xd は堅牢な小ブロックパフォーマンスを示しており、要求レートは、より大きなブロックサイズがワークロードを帯域幅主導のプロファイルにシフトする前に、数千万に達します。
4K では、読み取りは 4490 万 IOPS、書き込みは 3630 万 IOPS に達します。ランダム読み取りはさらに高いレベルの 7140 万 IOPS に達し、システムが高キューワークロードをすべてのドライブに効率的に分散する能力を示しています。これらの値はブロックサイズが増加するにつれて自然に低下しますが、8K、16K、および 32K の範囲で進行は一貫しています。
16K および 32K ブロックでは、読み取りは 1740 万および 835 万 IOPS に落ち着き、ランダム読み取りは 1650 万および 815 万 IOPS で密接に一致します。書き込みは予想されるパターンに従い、より低く追跡しますが、シーケンシャルおよびランダムアクセスパターンの両方で安定しています。
64K 以上に進むと、テストは純粋な IOPS からより帯域幅に制約されるシナリオに移行します。IOPS は数百万台前半に低下し、最終的には数十万台に低下します。1M ブロックサイズでは、読み取り IOPS は約 300K、書き込みは約 174K になり、ランダム操作は同じ範囲で終了します。
全体として、ローカル IOPS の結果は、小ブロック全体で非常に高いキューデプスワークロードを持続するシステムの能力を明確に示しており、転送が増加して帯域幅が支配的な要因になると予測可能なスケーリングが行われます。
PEAK:AIO: Dell PowerEdge R7725xd がこのワークロードに適している理由
PEAK:AIO は、通常、AI トレーニング、推論パイプライン、金融モデリング、およびリアルタイム分析のために、非常に高速で低レイテンシの大規模データセットへのアクセスを必要とする環境向けに設計されています。このプラットフォームは、高密度 NVMe ストレージ、バランスの取れた PCIe 帯域幅、および大規模な予測可能なレイテンシで機能します。これらの要件を満たすには、基盤となるハードウェアは、同時高負荷下で一貫した再現可能なパフォーマンスを維持しながら、持続的なスループットを提供する必要があります。
ここで、Dell PowerEdge R7725xd は PEAK:AIO と自然に一致します。このシステムのアーキテクチャは、PCIe Gen5 リソースを最大化するように設計されており、従来の RAID コントローラーに依存することなく、24 個のフロントマウント U.2 NVMe ベイの全帯域幅を CPU に直接公開します。このレイアウトにより、PEAK:AIO は最新の NVMe ベースのデータパイプラインから期待される並列処理とレイテンシプロファイルが得られます。システム構成では、NVMe SSD を 2 つの RAID0 グループに分割しました。
テストされたシナリオでは、R7725xd に接続された 2 つのクライアントシステムを使用しました。各システムには Broadcom BCM57608 2x 200G NIC が搭載されていました。これにより、合計 4 つの 200G アップリンクが各クライアントに供給され、R7725xd は PEAK:AIO デプロイメントが本番環境で見られるものと同様の現実的な高性能構成に押し上げられました。このレベルのネットワーク帯域幅により、NIC レイヤーでボトルネックになることなく、NVMe サブシステム、PCIe トポロジ、および CPU インターコネクトを完全にストレステストするためのヘッドルームが得られました。
その結果、PEAK:AIO ワークロードと効果的に連携するプラットフォームが生まれました。R7725xd は、高密度 NVMe 容量、PCIe Gen5 スループット、並列処理のためのデュアル AMD EPYC 9005 プロセッサ、およびクライアントあたり数百ギガビットのマルチクライアントデータ取り込みをサポートするネットワーク機能を提供します。これらの特性はすべて、PEAK:AIO のパフォーマンス期待値を達成するための基盤となります。
PEAK:AIO – NVMe-oF RDMA – 帯域幅
PEAK:AIO を搭載した PowerEdge R7725xd で NVMe-oF RDMA 帯域幅の結果を調べると、全体的な傾向は、これほど多くの PCIe およびネットワーク帯域幅を持つシステムから期待されるものとまったく同じです。ブロックサイズが増加するにつれて、スループットは急速に上昇し、プラットフォームの実用的な制限近くで安定します。
小ブロックサイズでは、パフォーマンスは読み書きともに 20GB/s 台半ばから始まり、これは 4K および 8K 転送がスループットパスよりも IOPS パスをはるかに強くプッシュするため、正常です。16K および 32K ブロックに入ると、パイプラインが開きます。読み取りは 32K で約 154 GB/s にジャンプし、160 GB/s の範囲に上昇し続け、これは 4 つの 200 Gb/s リンクを介したデュアルクライアントセットアップが着地すると予想される場所です。
ランダム読み取りパフォーマンスはシーケンシャルとほぼ完全に一致します。PEAK:AIO はコマンドキューを適切に供給するため、ランダム読み取り帯域幅はシーケンシャル読み取り帯域幅とほぼ同じように上昇し、32K から 1M まで約 159 ~ 161 GB/s に落ち着きます。これは、ストレージスタックが混合アクセスパターン下でボトルネックになっておらず、R7725xd の PCIe トポロジが 24 台の Gen5 NVMe ドライブ全体に負荷を均等に分散していることを示しています。
書き込みパフォーマンスは同様の曲線に従いますが、読み取りよりもわずかに低い値でピークに達します。シーケンシャル書き込みは、中間サイズのブロックでは 140 ~ 148 GB/s の範囲に留まり、128K では約 117 GB/s に低下しますが、ブロックサイズが増加すると回復します。ランダム書き込みは異なり、追加のオーバーヘッドを導入する混合キューワークロードでは正常な 110 ~ 117 GB/s に近くなります。
このセクションの主なポイントは、R7725xd が複数のクライアントがシステムを限界まで駆動している場合でも、NVMe-oF 経由で非常に高い帯域幅を持続することに問題がないことです。ブロックサイズが 32K 以上になると、サーバーは利用可能なネットワークおよびストレージ帯域幅を一貫して飽和させます。これは、PEAK:AIO が抽出するように設計されているパフォーマンスの種類であり、これらの結果は、実際の条件下でのプラットフォームのスケーリング能力の強力な検証となります。
PEAK AIO – NVMe-oF RDMA IOPS
IOPS 側では、PowerEdge R7725xd は堅牢な小ブロックパフォーマンスを示していますが、当初は予想よりも低い数値が観察されました。この問題は、将来的にネットワークドライバーサポートの改善で対処されると予想されます。それでも、全体的なスケーリング傾向は、ブロックサイズが増加したときの NVMe-oF RDMA の典型的な動作とまったく同じです。
最小ブロックサイズでは、システムはシーケンシャルおよびランダムワークロード全体で 600 万 IOPS 以上を提供できます。読み取り、書き込み、ランダム読み取り、ランダム書き込みはすべて、4K および 8K でほぼ同じ範囲にあり、フロントエンドクライアント、PCIe インフラストラクチャ、および NVMe ドライブ自体が要求レートに対応するのに問題がないことを示しています。
ブロックサイズが増加すると、IOPS の予想される低下が始まります。32K では、読み取りは約 470 万 IOPS に達し、書き込みは約 440 万 IOPS でわずかに遅れます。ランダム書き込みはここで最も大きな影響を受け、約 330 万 IOPS に低下し、混合アクセスパターンによって導入される追加のキューと CPU オーバーヘッドと一致しています。
大きなブロックに進むと、IOPS は予測可能な線形パターンで低下し続けます。256K および 512K 転送に達する頃には、スループットが主要なメトリックになり、IOPS は自然に数十万台前半に低下します。1M ブロックサイズでは、すべてのワークロードが 140K ~ 153K IOPS に収束し、前のセクションで見た帯域幅の数値と一致しています。
GPUDirect Storage パフォーマンス
R7725xd で実施したテストの 1 つは、Magnum IO GPUDirect Storage (GDS) テストでした。GDS は NVIDIA によって開発された機能であり、GPU が NVMe ドライブまたはその他の高速ストレージデバイスに格納されたデータにアクセスする際に CPU をバイパスできるようにします。GDS は、CPU とシステムメモリを介してデータをルーティングする代わりに、GPU とストレージデバイス間の直接通信を可能にし、レイテンシを大幅に削減し、データスループットを向上させます。
GPUDirect Storage の仕組み
従来、GPU が NVMe ドライブに格納されたデータを処理する場合、データは GPU に到達する前に CPU とシステムメモリを通過する必要があります。このプロセスは、CPU が中間業者となり、レイテンシを追加し、貴重なシステムリソースを消費するため、ボトルネックを引き起こします。GPUDirect Storage は、GPU が PCIe バスを介してストレージデバイスから直接データにアクセスできるようにすることで、この非効率性を排除します。この直接パスはデータ移動のオーバーヘッドを削減し、より高速で効率的なデータ転送を可能にします。
特にディープラーニングを含む AI ワークロードは、データ集約型です。大規模なニューラルネットワークのトレーニングにはテラバイト単位のデータの処理が必要であり、データ転送の遅延は GPU の利用率低下とトレーニング時間の延長につながる可能性があります。GPUDirect Storage は、データを可能な限り迅速に GPU に配信することでこの課題に対処し、アイドル時間を最小限に抑え、計算効率を最大化します。
さらに、GDS は、ビデオ処理、自然言語処理、またはリアルタイム推論など、大規模データセットのストリーミングを伴うワークロードに特に役立ちます。CPU への依存を減らすことで、GDS はデータ移動を加速し、CPU リソースを他のタスクに解放し、全体的なシステムパフォーマンスをさらに向上させます。
生の帯域幅を超えて、NVMe-oF (TCP/RDMA) との GPUDirect は超低レイテンシ I/O も提供します。これにより、GPU がデータ不足になることはなく、リアルタイム AI 推論、分析パイプライン、およびビデオ再生に最適なシステムとなります。
GDSIO 読み取りシーケンシャル
GDSIO を使用して 1 つのクライアントで PEAK:AIO を調べると、ブロックサイズとスレッド数の両方が増加するにつれて、読み取りスループットは明確なスケーリングパターンを示します。この単一クライアントは 2 つの 400G リンクを介して接続されており、合計で 90 GB/s に制限されていました。
最小ブロックサイズと低スレッド数では、パフォーマンスは控えめで、4K 読み取りはシングルスレッドで約 189 MiB/s から始まります。スレッドの並列処理を増やすとすぐに、システムは即座に応答し、4 スレッドで 691MiB/s に達し、より大きなブロックに進むにつれてマルチ GiB/s の範囲に突入します。
中間ブロックサイズは、スレッド数に対する感度が最も高くなります。32K では、スループットはシングルスレッドの 1.3 GiB/s から 64 スレッドで約 20 GiB/s まで増加し、それ以降はわずかに低下するだけです。64K および 128K でも同様のパターンが現れ、システムは低並列処理の低単桁 GiB/s から、ワークロードがスケールするにつれて 30 GiB/s 以上に移行します。
より大きなブロックサイズに達すると、システムが単一クライアントのパフォーマンス上限に近づくにつれて、スループットは安定し始めます。1 MiB では、パフォーマンスは 1 つのスレッドの 11GiB/s から、高スレッド数で約 88GiB/s まで上昇します。5 MiB および 10 MiB の転送は同じプラトーを示し、テストが 64、128、または 256 スレッドのいずれで実行されていても、約 89 ~ 90GiB/s でピークに達します。
GDSIO 書き込みシーケンシャル
書き込み側では、スケーリング動作は読み取りと同様のパターンに従いますが、ほとんどのブロックサイズでパフォーマンスはわずかに低くなります。これはシーケンシャル書き込みワークロードでは予想されることです。最小ブロックサイズでは、スループットは 4K のシングルスレッドで 165 MiB/s から始まり、並列処理が増加するにつれて着実に上昇します。4 スレッドでは、それが 619MiB/s 強まで増加し、8 スレッドで 1GiB/s を超えます。
中間ブロックサイズは、スレッド数が増加するにつれてより大きな増加を示します。32K では、スループットは 1 GiB/s 未満から始まり、より高いスレッドレベルで 21 GiB/s 以上にスケールします。64K および 128K の範囲は傾向を継続し、低単桁 GiB/s から、ワークロードがより並列になるにつれて中 30 GiB/s および 50 GiB/s に移行します。
より大きな転送は、システムが自然な書き込みスループット上限に落ち着くときです。1 MiB では、パフォーマンスはシングルスレッドの 13.3GiB/s から、高スレッド数で 90 GiB/s 未満まで上昇します。5 MiB および 10 MiB テストは同様のパターンに従い、システムが 64、128、または 256 スレッドのいずれで実行されていても、結果は 90 GiB/s 前後でピークに達します。
Gen5 時代のパフォーマンスの再定義
コンタクトパーソン: Ms. Sandy Yang
電話番号: 13426366826



