主なポイント
- フラッシュファーストNVMe RAID: PERC13 H975iはSAS/SATAから完全に移行し、Broadcom SAS51xxをベースにしたNVMeネイティブ、AI対応アーキテクチャを採用しています。
- 世代を跨いだ大きな飛躍: PCIe Gen5 x16、コントローラーあたり最大16台のNVMeドライブ(2台で32台)をサポートし、テストではコントローラーあたり52.5 GB/s、12.5M IOPSを達成。PERC12と比較して、読み取り帯域幅+88%、書き込み帯域幅+318%、4K読み取りIOPS +31%、4K書き込みIOPS +466%の向上。
- AIサーバーへの適合性: フロント統合設計により、GPU用のリアPCIeスロットが解放され、MCIOの配線が短縮され、アクセラレータごとに専用のストレージパイプが提供されるため、CPUオーバーヘッドなしでより安定した、決定論的なスループットを実現します。
- ストレス下でのレジリエンス: スーパキャパシタ保護キャッシュと高速なリビルドにより、リビルド中の高パフォーマンス(最大53.7 GB/s読み取り、68 GB/s書き込み、17.3M/5.33M 4K IOPS)を維持しながら、10分/TiBまで時間を短縮します。
- エンドツーエンドのセキュリティ: ハードウェアルートオブトラスト、SPDMデバイスID、およびドライブ、転送中のデータ、コントローラーキャッシュを網羅するフルスペクトル暗号化。
Dell PERC12 H965iおよびPERC13 H975iの仕様
| 機能 | PERC12 H965i フロント | PERC13 H975i フロント |
|---|---|---|
| RAIDレベル | 0, 1, 5, 6, 10, 50, 60 | 0, 1, 5, 6, 10, 50, 60 |
| 非RAID (JBOD) | はい | はい |
| ホストバスタイプ | PCIe Gen4 x16 | PCIe Gen5 x16 |
| サイドバンド管理 | I2C, PCIe VDM | I2C, PCIe VDM |
| ポートあたりのエンクロージャ数 | 該当なし | 該当なし |
| プロセッサ / チップセット | Broadcom RAID-on-Chip, SAS4116W | Broadcom RAID-on-Chip, SAS5132W |
| エネルギーパック / 電源バックアップ | バッテリー | スーパキャパシタ |
| ローカルキー管理セキュリティ | はい | はい |
| セキュアエンタープライズキーマネージャー | はい | はい |
| コントローラーキュー深度 | 8,192 | 8,192 |
| 不揮発性キャッシュ | はい | はい |
| キャッシュメモリ | 8 GB DDR4 3200 MT/s | 統合RAIDキャッシュ |
| キャッシュ機能 | ライトバック、リードアヘッド、ライトスルー、常時ライトバック、リードアヘッドなし | ライトバック、ライトスルー、常時ライトバック、リードアヘッドなし |
| 最大複雑仮想ディスク | 64 | 16 |
| 最大シンプル仮想ディスク | 240 | 64 |
| 最大ディスクグループ | 64 | 32 |
| ディスクグループあたりの最大VD | 16 | 8 |
| 最大ホットスペアデバイス | 64 | 8 |
| ホットスワップデバイス対応 | はい | はい |
| 自動設定(プライマリ&実行回数) | はい | はい |
| ハードウェアXORエンジン | はい | はい |
| オンライン容量拡張 | はい | はい |
| 専用&グローバルホットスペア | はい | はい |
| サポートされるドライブタイプ | NVMe Gen3およびGen4 | NVMe Gen3、Gen4およびGen5 |
| VDストリップ要素サイズ | 64KB | 64KB |
| NVMe PCIeサポート | Gen4 | Gen5 |
| 構成最大NVMeドライブ数 | コントローラーあたり8台 | コントローラーあたり16台 |
| サポートされるセクターサイズ | 512B, 512e, 4Kn | 512B, 512e, 4Kn |
| ストレージブートサポート | UEFIのみ | UEFIのみ |
Dell PowerEdgeサーバーのPERC13 H975iフロントコントローラーは、システムアーキテクチャにシームレスに統合できるように設計されています。リアPCIeスロットを占有する従来の追加カードとは異なり、H975iはフロントドライブバックプレーンに直接接続し、専用のPCIe 5.0インターフェイスを介してマザーボード上のフロントMCIOコネクタとインターフェイスします。この統合設計により、高性能GPUや追加のPCIe拡張用のリアPCIeスロットが確保され、ケーブル長が大幅に短縮されます。これにより、信号整合性が維持され、システムがより信頼性が高く、保守しやすくなります。その結果、内部レイアウトがすっきりし、高密度で計算集約型の展開のためのエアフローが改善されます。
H975iは、シリコンレベルのハードウェアアテステーションから、SEDドライブを使用した保存データのフルスペクトル暗号化まで及ぶ包括的なセキュリティアーキテクチャを実装しています。その基盤として、ハードウェアルートオブトラストは、内部ブートROMから各ファームウェアコンポーネントまでの不変の暗号検証チェーンを確立し、認証されたDell認定ファームウェアのみがコントローラー上で実行されることを保証します。このハードウェアベースのセキュリティは、Security Protocol and Data Model(SPDM)の実装を通じて拡張され、各コントローラーには一意のデバイスID証明書が含まれており、iDRACがリアルタイムの認証検証を実行できるようになります。コントローラーは、従来のデータ保存シナリオを超えて、キャッシュメモリを含む暗号化保護を拡張します。不正なファームウェアからアクセスできないセキュアメモリ領域に暗号化キーを保持します。その結果、機密データは、ドライブ上にある場合でも、キャッシュでアクティブに処理されている場合でも保護されたままです。
H975iの電源保護は、スーパキャパシタの統合により、従来のバッテリーバックアップシステムからのもう一つの重要な進化です。スーパキャパシタは、予期せぬ停電イベント中に瞬時に電力を供給し、暗号化された完全なキャッシュフラッシュを不揮発性ストレージに保証し、データは無期限に保護されます。さらに、学習サイクルに4〜8時間かかるバッテリーベースのシステムとは異なり、H975iのスーパキャパシタは、キャリブレーション中のパフォーマンス低下なしに、5〜10分以内に透過的学習サイクルを完了します。この設計は、バッテリーソリューションに固有のメンテナンスオーバーヘッドと劣化の懸念を排除しながら、ミッションクリティカルなデータ保護のための優れた信頼性を提供します。
統合監視および管理
DellのPERC13 RAIDコントローラーは、Dellの多くのRAIDソリューションと同様に、プラットフォームブート中のSystem Setup(BIOS内)、iDRAC Web GUI、PERC12ユーティリティ、さらにはDell OpenManage UIおよびCLIなど、多くの方法で管理および監視できます。
iDRACコントローラー管理
iDRAC管理インターフェイスを表示すると、コントローラータブにサーバーのストレージハードウェアの概要が表示されます。BOSSカードの隣に、ファームウェアバージョン、キャッシュメモリ、バッテリーの状態に関する情報が記載されたデュアルPERC H975iコントローラーが表示されます。この概要により、BIOSやCLIツールにアクセスすることなく、コントローラーの準備状況と構成を迅速に確認できます。
iDRACの仮想ディスクタブには、作成されたストレージアレイが表示され、RAIDレベル、サイズ、キャッシュポリシーが含まれます。このシステムでは、SSD上に構築された2つのRAID-10グループがリストされています。このビューから、管理者はボリュームがオンラインであることを確認したり、新しい仮想ディスクを作成したり、アクションメニューを使用して既存の構成を調整または削除したりできます。
RAIDコントローラー構成ユーティリティ
上記の画像は、PowerEdge R7715プラットフォームでPERC H975iフロント構成ユーティリティシステムセットアップに入力する例を示しています。このインターフェイスから、構成管理、コントローラー管理、デバイス管理など、すべての主要なRAIDコントローラー設定を管理できます。このユーティリティは、プラットフォームブートプロセス中に仮想ディスクをセットアップし、ハードウェアコンポーネントを直接監視するための合理化された方法を提供します。
RAIDレベルを選択した後、アレイの物理ディスクの選択に進みます。この例では、利用可能なすべてのNVMe SSDがリストされ、RAID対応としてマークされています。未構成容量プールから3.2 TiBのDell DC NVMeドライブを複数選択します。メディアタイプ、インターフェイス、論理セクターサイズなどのフィルターは、選択を絞り込むのに役立ちます。目的のドライブにチェックを入れたら、「OK」をクリックしてディスク選択を完了し、仮想ディスクの作成を続行できます。
仮想ディスク作成を完了する前に、選択した物理ディスク上のすべてのデータが完全に削除されることを確認する警告が表示されます。続行するには、「確認」ボックスをチェックし、「はい」を選択して操作を承認します。このセーフガードは、RAID作成プロセス中の偶発的なデータ損失を防ぐのに役立ちます。
仮想ディスクが作成されると、「仮想ディスク管理」メニューの下に表示されます。この例では、新しいRAID 5仮想ディスクが43.656 TiBの容量と「準備完了」のステータスでリストされています。数回の簡単な手順で、ストレージが構成され、使用できるようになります。
PERC BIOS構成ユーティリティとiDRACインターフェイスは、ローカルおよびリモート管理のための直感的なオプションを提供しますが、DellはPERC CLI(perccli2)と呼ばれる強力なコマンドラインツールも提供しています。このユーティリティはWindows、Linux、VMwareをサポートしており、スクリプト作成、自動化、またはヘッドレス環境でのPERCコントローラーの管理に最適です。Dellは、サポートサイトでPERC CLIのインストールとコマンド使用に関する詳細なドキュメントも提供しています。
Dell PERC13 パフォーマンス テスト
パフォーマンス テストに入る前に、デュアル PERC H975i フロント コントローラーで構成された Dell PowerEdge R7715 プラットフォームを使用して環境を準備しました。これらは、それぞれ 12,000 MB/s のシーケンシャル読み取りと 5,500 MB/s のシーケンシャル書き込み(128 KiB ブロック サイズを使用)に対応する 32 台の 3.2 TB Dell NVMe ドライブとペアリングされました。この高性能な基盤により、PERC13 コントローラーのスループットの限界を押し広げ、大規模な RAID の動作を評価できます。
- プラットフォーム: Dell PowerEdge R7715
- CPU: AMD EPYC 9655P 96コア プロセッサ
- RAM: 768GB (12 x 64GB) DDR5-5200 ECC
- RAIDコントローラー: 2 x PERC13 H975i
- ストレージ: 32 x 3.2TB Dell CD8P NVMe ドライブ
- PCIeアクセラレータ: 2 x NVIDIA H100 GPU
NVIDIA Magnum IO GPU Direct Storage: AIとストレージの融合
最新のAIパイプラインは、多くの場合、計算ではなくI/Oバウンドです。データバッチ、埋め込み、チェックポイントは、アクセラレータを忙しく保つために十分な速さでストレージからGPUメモリに転送される必要があります。NVIDIAのMagnum IO GDS(cuFile経由)は、従来の「SSD → CPU DRAM → GPU」パスをショートカットし、NVMeからGPUメモリへのデータのDMA転送を直接可能にします。これにより、CPUバウンスバッファのオーバーヘッドが削減され、遅延が低下し、負荷下でのスループットがより予測可能になり、GPU利用率の向上、エポック時間の短縮、チェックポイントの保存/読み込みサイクルの高速化につながります。
当社のGDSIOテストは、ストレージからGPUへのデータパス自体を測定するように設計されており、ブロックサイズとスレッド数をスイープして、PERC13バックのNVMeセットがH100メモリにどれだけ速くストリーミングできるかを示します。各H975iがPCIe 5.0 x16リンク(理論値約64 GB/s/コントローラー、単方向)上にある場合、2つのコントローラーは合計で約112 GB/sの天井を設定します。カーブがプラトーになる場所は、リンクまたはメディアの制限があるかどうかを示します。実務家にとっては、チャートを実際のワークロードのプロキシとして読んでください。大きなシーケンシャル読み取りは、データセットストリーミングとチェックポイント復元にマッピングされます。大きなシーケンシャル書き込みは、チェックポイント保存にマッピングされます。並列処理を伴う小さな転送は、データローダーのシャッフルとプリフェッチを反映します。要するに、強力なGDSIOスケーリングは、GPUの停止回数が少なくなり、トレーニングと高スループット推論の両方でパフォーマンスが一貫して向上することを意味します。
GDSIO読み取りシーケンシャルスループット
シーケンシャル読み取りから始めると、スループットは低いブロックサイズとスレッド数で控えめに始まり、単一スレッドで8Kブロックで約0.3 GiB/sから始まりました。パフォーマンスは、特にスレッド数を4から16に増やした場合、16Kから512Kブロックの間で急激にスケーリングしました。最も大幅な増加は、1M、5M、および10Mブロックサイズで発生し、スループットは劇的に増加し、256スレッドで10Mブロックサイズで103 GiB/sに達しました。この進行は、PERC13アレイがより大きなブロックサイズとマルチスレッド並列処理の恩恵を受けており、64〜128スレッドで最適な飽和状態に達し、それ以降はゲインがプラトーになることを示しています。
GDSIO読み取りシーケンシャルスループット差
8Kから10Mまでのブロックサイズ全体でのシーケンシャル読み取りテストにおいて、PERC13(H975i)はPERC12(H965i)を一貫して上回り、パーセンテージゲインは大きなブロックサイズと高いスレッド数で劇的にスケーリングしました。
より小さなブロックサイズ(8K-16K)では、改善はわずかでした(通常0〜20%の範囲)。一部の孤立したケースでは、低いキュー深度でのテストのばらつきにより、H975iがわずかに遅れました。32K-64Kブロックサイズになると、利点はより一貫性があり、H975iはほとんどのスレッド数で30〜50%高いスループットを提供しました。
最も顕著な違いは、より大きなブロックサイズ(128Kから10M)で観察され、PERC13コントローラーはシステムの完全なシーケンシャル読み取りポテンシャルを解放しました。ここでは、H975iはH965iと比較して50〜120%のゲインを示しました。たとえば、8〜16スレッドの1Mブロックサイズでは、スループットは55 GiB/s以上高く、約90%の向上に相当します。5Mおよび10Mブロックサイズでは、改善は定期的に100%を超え、一部の構成では以前の世代と比較してほぼ2倍のパフォーマンスを示しました。
全体として、PERC13(H975i)は、特にブロックサイズとスレッド数がスケーリングするにつれて、シーケンシャル読み取りワークロードで圧倒的なリードを確立しました。より小さなブロックサイズでは段階的な改善が見られましたが、256K以上では、新しいコントローラーは一貫して50〜100%以上のパフォーマンスを提供し、Dellの最新RAIDプラットフォームのアーキテクチャの進歩を明確に強調しました。
GDSIO読み取りシーケンシャルレイテンシ
シーケンシャル読み取りスループットが増加するにつれて、レイテンシはより小さなブロックサイズと低いスレッド数で管理可能でした。たとえば、レイテンシは64Kブロックおよび16スレッドまで100 μs未満に保たれ、その範囲での読み取りの効率的な処理を示しました。ブロックサイズとスレッド数が高くなり、特に64以上のスレッドを持つ5Mおよび10Mでは、レイテンシは急速に上昇し、256スレッドを持つ10Mブロックサイズで211.8 msに達しました。これは、スループットが高いままでも、極端なワークロード下でコントローラーまたはキューイングのボトルネックがどのように現れるかを示しています。
パフォーマンスと効率の最適なバランスは、1Mブロックサイズで8〜16スレッドの場合に観察され、レイテンシを1ミリ秒未満に保ちながら、87.5〜93.7 GiB/sのスループットを維持しました。このゾーンは、遅延を大幅に抑えながら帯域幅を最大化するためのスイートスポットを表します。
GDSIO書き込みシーケンシャルスループット
書き込みパフォーマンスは、ブロックサイズが増加するにつれて早期に良好なスケーリングを示し、スループットは1スレッドの8Kで1.2 GiB/sから256Kで13.9 GiB/sに増加しました。最も大幅な成長は、128Kから1Mブロックサイズの間で現れ、スループットは8〜16スレッドで80 GiB/sを超えました。ピークパフォーマンスは5Mおよび10Mブロックサイズで達成され、8スレッド以降は100〜101 GiB/sを維持しました。
これらの大きなブロックでは、8〜64スレッド全体でパフォーマンスが平坦化し、コントローラーがスケーリングカーブの早い段階で飽和状態に達したことを示しています。より高いスレッド数、特に128および256スレッドでは、スループットの安定性は変動し、大きな5Mおよび10Mブロックでは101 GiB/sで安定していましたが、256Kのような中間ブロックサイズでは、32スレッドの61.2 GiB/sから256スレッドの45.3 GiB/sに低下しました。
GDSIO書き込みシーケンシャルスループット差
シーケンシャル書き込みテストでは、PERC13(H975i)は、特にブロックサイズとスレッド数がスケーリングするにつれて、PERC12(H965i)よりも大幅なゲインをもたらしました。小さなブロックサイズ(8K-32K)では、改善はわずかで、通常0〜10%の範囲であり、時折テストノイズにより無視できる差が見られました。
64K以降、H975iの利点はより顕著になりました。64Kブロックサイズでは、改善は40〜70%に達し、H965iと比較してスループットは12〜17 GiB/s以上増加しました。128K-256Kでは、向上はさらに強くなり、H975iは中程度から高いスレッド数で一貫して50〜70%高いスループットを提供しました。
最も劇的なパフォーマンスギャップは、より大きなブロックサイズ(512Kから10M)で現れました。512Kでは、H975iは+31〜+56 GiB/sのゲインを達成し、H965iと比較して60〜80%の改善に相当しました。1Mブロックサイズでは、リードはさらに拡大し、スループットは+40〜+68 GiB/s増加し、70〜90%のゲインとなりました。最後に、5Mおよび10Mブロックサイズでは、PERC 13はPERC 12と比較してスループットをほぼ倍増させ、+75〜+79 GiB/sの差は、一部のスレッドリッチなシナリオでは100%の改善に相当しました。
全体として、PERC 13コントローラーは、シーケンシャル書き込みワークロードで明確な世代間の飛躍を示しました。小さなブロックサイズでは差は小さいですが、ワークロードが64Kを超えてスケーリングすると、H975iは一貫して50〜100%高いスループットを提供し、書き込み集約型のシーケンシャルワークロードでH965iに対する優位性をしっかりと確立しました。
GDSIO書き込みシーケンシャルレイテンシ
シーケンシャル書き込み中のレイテンシは、より小さなブロックサイズと低いスレッド数で印象的に低く保たれ、多くの場合、最大8スレッドで128Kブロックまで50 μs未満でした。スレッド数が増加するにつれて、レイテンシはより顕著にスケーリングしました。たとえば、レイテンシは32スレッドの512Kで392 μsに達し、64スレッドの1Mブロックサイズで1 msを超えました。
飽和効果は、最大のブロックサイズと最も高い同時実行レベルでより明らかになりました。レイテンシは、128スレッドの5Mで12.4 msに上昇し、256スレッドの10Mで50.3 msに達しました。
シーケンシャル書き込みワークロードのパフォーマンスと効率の最適なバランスは、1Mまたは5Mブロックサイズで8〜16スレッドの場合に観察され、スループットは87.9〜101.2 GiB/sに達し、レイテンシは178 μs〜1.7 msの範囲内に保たれ、過剰な書き込みキュー遅延を発生させることなく強力な持続パフォーマンスを提供しました。
MLPerf Storage 2.0 パフォーマンス
AIトレーニング環境での実世界のパフォーマンスを評価するために、MLPerf Storage 2.0テストスイートを使用しました。MLPerf Storageは、実際のシミュレートされたディープラーニングワークロードのI/Oパターンをテストするように特別に設計されています。ストレージシステムがチェックポイントやモデルトレーニングなどの課題をどのように処理するかについての洞察を提供します。
チェックポイントベンチマーク
機械学習モデルのトレーニングでは、モデルの状態を定期的に保存するためにチェックポイントが不可欠です。これにより、ハードウェア障害などの中断による進捗の損失を防ぎ、トレーニング中の早期停止を可能にし、研究者が実験やアブレーションのためにさまざまなチェックポイントから分岐できるようにします。
チェックポイント保存時間の比較により、Dell PERC13はすべてのモデル構成でPERC12を一貫して上回ることが明らかになりました。PERC 13は7.61秒から10.17秒の保存時間を達成しましたが、PERC12は同じ操作に10.41秒から20.67秒を必要としました。パフォーマンスギャップは、1Tパラメータモデルで最も顕著であり、PERC13はPERC12の20秒以上に対して10秒強で保存を完了しました。こ
コンタクトパーソン: Ms. Sandy Yang
電話番号: 13426366826



