MITとタフツ大学の研究者は、ブロックの消去・書き込み操作やガベージコレクションによるパフォーマンス低下を軽減する、プールされたSSD向けのパフォーマンス向上管理スキームを開発しました。
Sandookと名付けられたこのスキームは、ストレージサーバー上で実行されるエージェントソフトウェアからのテレメトリを利用した2層制御構造を使用して、SSDの短期および長期のパフォーマンス制限特性を分離します。
SSDのパフォーマンスは、読み書きリクエストの組み合わせによって大きく変動する可能性があります。書き込みはブロックレベルの消去と再書き込みサイクルを必要とするため、読み取りよりもはるかに遅く、重い書き込みトラフィックは全体的な読み取りパフォーマンスを低下させる可能性があります。パフォーマンスは、ベンダーごとに異なるSDSセットアップや、同じメーカーやバッチのSSD間でも異なる場合があります。SSDコントローラーがブロック内の削除されたセルを再利用する場合、有効なデータをコピーアウトし、ブロックを消去し、フリープールに戻す必要があります。これはガベージコレクションとして知られるプロセスです。この操作は通常、各SSDコントローラーによって独立して管理され、突然の大幅なパフォーマンス低下につながる可能性があります。
研究者たちは、コンピューティングノードとストレージサーバーで構成されるコンピューティングクラスターを構想しています。コンピューティングクラスター内には中央コントローラーが動作し、コンピューティングサーバー上のクライアントソフトウェアやストレージサーバー上のエージェントソフトウェアと並行して動作します。ストレージサーバーは、標準的な市販のSSDを使用し、それぞれ独自のネイティブコントローラーを備えています。
Sandookコントローラーは、IOPS機能などのパフォーマンスベースラインを確立するために各SSDをプロファイリングして、すべてのSSDのレジストリを維持します。個々のドライブに読み取りまたは書き込みモードを割り当て、ストレージサーバー上のSandookエージェントから200ミリ秒ごとにリアルタイムのパフォーマンス更新を受け取ります。このデータを使用して、クラスターのグローバルI/O需要に合わせて調整された読み書きの重みを計算し、これらのスケジューリング決定をコンピューティングサーバー上のSandookクライアントソフトウェアと共有します。
読み取りの場合、Sandookは、フォールトトレランスに使用されている既存のブロックレプリケーションを活用して、異なるSSD上のレプリカ間で読み取りリクエストを柔軟にルーティングします。書き込みの場合、論理ブロックの配置に関係なく、任意のSSDに書き込みを指示できるログ構造設計を使用します。この高い柔軟性により、スケジューリングポリシーを制限なく適用できます。
Sandookクライアントソフトウェアは、アプリケーションに標準的なブロックデバイスインターフェイスを公開し、コントローラーのスケジューリングルールに基づいて最も適切なSSDにI/Oリクエストを透過的にルーティングします。また、ストレージ側のエージェントからリアルタイムのSSDステータスを受信し、ガベージコレクション中にSSDの優先度を下げることもできます。その後、読み書きリクエストは他のドライブにリダイレクトされ、ストレージシステム全体の過剰なテールレイテンシを防ぎます。
Sandookエージェントは、(1)クライアントからの読み書きコマンドを処理し、ターゲットSSDに転送します。(2)コントローラーのスケジューリングをサポートするために、定期的なプロファイリングやリアルタイムステータス信号を含むハードウェアに依存しない監視を提供します。(3)SSDの輻輳信号をクライアントに中継し、ガベージコレクションのような短期的なイベントをサーバー内の他のSSDにI/Oをシフトすることで、ローカルかつ即座に処理できるようにします。
ストレージサーバーあたり数十個のSSDを監視するためのメモリとCPUのオーバーヘッドは最小限です。
研究者たちは、Sandookを4つのワークロードで評価しました。
- LeanStore:マルチコアCPUとNVMe SSDに最適化された高性能OLTPストレージエンジン。
- 機械学習:180GBのデータセットでPyTorchを使用したUnet3D CNNモデルのトレーニング。
- LZ4:ImageNet ILSVRC2015データセットでの画像圧縮。
- ストレージサーバー:レイテンシに敏感なアプリケーションを提供する高性能オープンソースブロックストレージサーバー。
全体として、Sandookは、パフォーマンスの変動源を1つだけ対処する既存のシステムと比較して、生のI/Oスループットを30〜82%向上させ、サブミリ秒のテールレイテンシを維持します。SSDプールを共有する変更されていないアプリケーションでは、エンドツーエンドのパフォーマンスが12〜94%向上します。
具体的には、以前のシステムと比較して、ストレージスループットが1.7倍、アプリケーションスループットが1.12〜1.94倍、レイテンシが71〜88%低下し、GPU使用率が23%向上しました。カスタムハードウェアやアプリケーションの変更は不要です。
「データセンターSSDのパフォーマンス変動を抑制してその可能性を解き放つ」と題されたSandookの論文は、ダウンロード可能なPDFとして入手可能です。この研究は、5月4日から6日までワシントン州レントンで開催されるUSENIXネットワークシステム設計および実装シンポジウム(NSDI 2026)で発表されます。
北京千行捷通科技有限公司
Sandy Yang / グローバル戦略ディレクター
WhatsApp / WeChat:+86 13426366826
Eメール:yangyd@qianxingdata.com
ウェブサイト:www.qianxingdata.com/www.storagesserver.com
ビジネスフォーカス:
ICT製品流通/システムインテグレーション&サービス/インフラストラクチャソリューション
20年以上のIT流通経験を持ち、主要なグローバルブランドと提携して信頼性の高い製品とプロフェッショナルサービスを提供しています。
「テクノロジーでインテリジェントな世界を構築する」あなたの信頼できるICT製品サービスプロバイダー!