AIモデルのトレーニングにおいて、チェックポインティングは、レジリエンス、運用効率、および保存された状態からのトレーニングの再開またはファインチューニングの能力を保証するために不可欠です。しかし、ますます複雑化するモデルと広範なトレーニングデータセットを特徴とする最新のAIワークロードの要求は、ストレージシステムをその限界まで押し上げています。
AIワークフローにおけるチェックポイントの役割
AIトレーニングにおけるチェックポインティングは、トレーニングサイクルの間にモデルの完全な状態を定期的に保存する重要なプロセスです。この状態には、モデルの重みとパラメータ、オプティマイザの状態、学習率スケジュール、およびトレーニングメタデータが含まれます。特定のインターバルでトレーニングプロセスの包括的なスナップショットを作成することにより、チェックポインティングはトレーニングの継続性を保証し、中断が発生した場合の回復を可能にします。
チェックポイントは通常、イテレーションベースのインターバル(例:1000回のトレーニングステップごと)でキャプチャされます。数週間または数ヶ月に及び、膨大な計算リソースを消費する可能性のある最新のLLM(大規模言語モデル)トレーニングは、潜在的な障害に対するセーフティネットとしてこれらのチェックポイントに大きく依存しています。たとえば、GPT-4クラスのモデルのトレーニングでは、モデルのサイズとトレーニング構成に応じて、数百ギガバイトから数テラバイトに及ぶチェックポイントが生成される可能性があります。
DALL-Eによって生成されたトレーニングプロセス
チェックポインティングの主な目的は、単なるバックアップ機能を超えています。これは、システム障害、停電、またはハードウェアの問題が発生した場合に、最初からやり直すのではなく、最後に保存された状態からトレーニングを再開できるようにする、トレーニングレジリエンスのための重要なメカニズムとして機能します。さらに、チェックポイントはモデル分析に非常に役立ちます。これにより、研究者はさまざまなトレーニング段階でのモデルの進化を調べ、パフォーマンスの低下が検出された場合に以前の状態に戻ることができます。
ストレージの観点から見ると、チェックポインティング中の書き込みパターンは特に注目に値します。チェックポイントがトリガーされると、システムはバーストパターンで膨大な量のデータを書き込む必要があります。これにより、明確なI/Oプロファイルが作成されます。トレーニング計算中の比較的低いストレージアクティビティの期間の後、チェックポインティング中の集中的な高帯域幅書き込み操作が続きます。これらの書き込み操作は通常シーケンシャルであり、高帯域幅シーケンシャル書き込み用に最適化されたストレージシステムから大きなメリットを得ることができます。
分散トレーニングにおけるさまざまな並列化戦略は、チェックポインティングの動作に大きな影響を与える可能性があります。これらの戦略は、チェックポインティングがトレーニング中にいつ発生するか、およびモデルのどの部分が保存されるかに影響します。最新の分散トレーニングセットアップでは、複数のGPUが同じレイヤーの異なる部分を同時に書き込む可能性があり、複雑なI/Oパターンが作成されます。この並列書き込み機能は効率の鍵ですが、データの一貫性を維持しながら同時書き込み操作を処理できる慎重な調整と堅牢なストレージシステムが必要です。このプロセスのいずれかのボトルネックは、広範なトレーニングの遅延につながる可能性があります。
チェックポインティングが遅いと、チェックポイントがストレージに書き込まれる間、トレーニングプロセス全体を一時停止する必要があるため、重大なトレーニングボトルネックが発生する可能性があります。たとえば、大規模なトレーニングセットアップでは、チェックポインティングに数時間ごとに30分かかる場合、トレーニング期間全体で数時間の累積ダウンタイムが発生する可能性があります。これはトレーニング効率に直接影響し、特にコンピューティングリソースが時間単位で請求されるクラウド環境では、運用コストを増加させます。
より高速なチェックポインティングにより、チームはより頻繁にチェックポイントを作成できるようになり、障害発生時の潜在的なデータ損失を最小限に抑えることができます。これにより、より積極的なトレーニングアプローチと改善された実験イテレーションサイクルが可能になります。さらに、高速なチェックポイント読み込み時間により、研究者は以前の状態から簡単に復元して代替アプローチをテストできるため、さまざまなトレーニング構成やモデルアーキテクチャでの実験が迅速化されます。
これらのチェックポイント操作を効率的に処理するストレージシステムの能力は、全体的なトレーニングインフラストラクチャの重要な要因になります。チェックポインティングのバースト書き込みパターンとトレーニングの持続的な読み書き操作の両方を管理できる高性能ストレージソリューションは、大規模言語モデルのトレーニングにかかる総時間とコストを大幅に削減できます。したがって、ストレージサブシステムのパフォーマンス特性、特に大規模なシーケンシャル書き込みを処理し、一貫した高帯域幅を維持する能力は、LLMトレーニングインフラストラクチャを設計する際の重要な考慮事項です。
このレポートでは、AIチェックポインティングのためのSSDパフォーマンスを評価し、市場で最大のQLC SSDと比較して、最新のGen5 SSDの利点を、トレーニングされるモデルにとってより有益な場合に、チェックポイント速度が重要である場合に評価しました。
チェックポイントパフォーマンス – DLIOによるベンチマーク
AIトレーニング環境におけるSolidigm SSDの実際のパフォーマンスを評価するために、Data and Learning Input/Output(DLIO)ベンチマークツールを使用しました。Argonne National Laboratoryによって開発されたDLIOは、ディープラーニングワークロードにおけるI/Oパターンをテストするために特別に設計されており、ストレージシステムがチェックポインティング、データ取り込み、およびモデルトレーニングの課題をどのように処理するかについての洞察を提供します。
DLIOを使用して、集中的なチェックポインティングシナリオでのドライブのスループット、レイテンシ、および信頼性を測定することを目指しました。このテストは61.44TBのD5-P5336で実施されましたが、初期のパフォーマンスデータは、Solidigm D5-P5336 122TBバージョンが同様のパフォーマンスプロファイルを提供することを示唆しています。また、このテストにおけるPCIe Gen5の利点を示すために、TLCベースのD7-PS1010の結果も含まれています。これらの2つのドライブを選択したのは、チェックポイントに関する両方の視点を示すためです。1つは可能な限り高速なチェックポイント時間に焦点を当て、もう1つは単一のSSDに保存されるチェックポイントの最大数に焦点を当てています。
この作業のために選択されたプラットフォームは、Ubuntu 22.04.02 LTSを実行しているDell PowerEdge R760でした。August 13, 2024リリースからのDLIOベンチマークバージョン2.0を使用しました。システム構成を以下に示します。
- 2 x Intel Xeon Gold 6430(32コア、2.1GHz)
- 16 x 64GB DDR5-4400
- 480GB Dell BOSS SSD
- シリアルケーブル Gen5 JBOF
- 7.68TB Solidigm D7-PS1010
- 61.44TB Solidigm D5-P5336
ベンチマークが実際のシナリオを反映するようにするために、LLAMA 3.1 405Bモデルアーキテクチャに基づいたテストを実施し、torch.save()を介してチェックポインティングを実装してモデルパラメータ、オプティマイザの状態、およびレイヤーの状態をキャプチャしました。セットアップは8GPUシステムをシミュレートし、8つのGPUに分散された4ウェイテンソル並列および2ウェイパイプライン並列処理を備えたハイブリッド並列化戦略を実装しました。この構成により、チェックポイントサイズは1,636 GBとなり、最新の大規模言語モデルトレーニング要件を代表するものでした。
DLIOチェックポイントワークロードのテストプロセスは、各ドライブを同様の利用率レベルまで満たすことから構成されました。61.44TBのSolidigm D5-P5336の場合、各パスには33回のチェックポイントインターバルが含まれ、合計54TBでした。より小さい7.68TBのD7-PS1010は、合計フットプリント4.9TBで、3回のチェックポイントインターバルを快適に収容しました。さらに1つのチェックポイントをD7-PS1010に収容できましたが、利用率がわずかに高くなりました。
DLIOチェックポイントワークロードは、Gen4 QLCベースの61.44TB D5-P5536とGen5 TLCベースの7.68TB D7-PS1010を比較したときに興味深い結果をもたらしました。最初のパスでは、ドライブが満杯になるにつれて、2つのSSDモデル間のパフォーマンスのギャップが広がりました。より高速なGen5 PS1010は、各チェックポイントを平均464秒で完了しました。一方、Gen4 P5336は623秒でした。2回目と3回目のパスでは、ギャップはPS1010で579秒と587秒、P5336で676秒と680秒に縮小しました。
チェックポインティングインターバルのギャップを最小限に抑えたい企業にとって、TLCベースのGen5 PS1010は最速の完了時間で利点を提供します。コスト効率の高い方法で多くのチェックポイントを保持することが目標である場合、QLCベースのGen4 P5336がそれを実行できます。2回目と3回目のパスでは、両方のドライブ間で平均チェックポイント時間の差は17%未満でした。
GPUDirectストレージ帯域幅
DLIOはAIワークフローにおけるフラッシュパフォーマンスを示しますが、ワークロードはチェックポイントが復元されるまで完全に書き込みベースです。AIワークロードにおけるSolidigm D7-PS1010とD5-P5336の全体像を描くために、GDSIOを使用した読み取り帯域幅測定を含めました。
GPU Direct Storageの仕組み
従来、GPUがNVMeドライブに保存されたデータを処理する場合、データはGPUに到達する前にCPUとシステムメモリを通過する必要があります。このプロセスは、CPUが中間業者となり、レイテンシを追加し、貴重なシステムリソースを消費するため、ボトルネックを引き起こします。GPU Direct Storageは、GPUがPCIeバスを介してストレージデバイスから直接データにアクセスできるようにすることで、この非効率性を排除します。この直接パスは、データ移動に関連するオーバーヘッドを削減し、より高速で効率的なデータ転送を可能にします。
特にディープラーニングを含むAIワークロードは、データ集約型です。大規模なニューラルネットワークのトレーニングにはテラバイトのデータの処理が必要であり、データ転送の遅延はGPUの利用率低下とトレーニング時間の延長につながる可能性があります。GPU Direct Storageは、データが可能な限り迅速にGPUに配信されるようにすることで、この課題に対処し、アイドル時間を最小限に抑え、計算効率を最大化します。
DLIOテストと同様に、目標は、高速Gen5 SSDと大容量QLCドライブの違いをよりよく理解し、特徴づけることです。すべてのAIワークロードが同じではなく、各ドライブはニーズに応じて独自の利点を提供します。
テスト構成マトリックス
NVIDIA L4をテストプラットフォームで使用して、以下のパラメータのすべての組み合わせを体系的にテストしました。
- ブロックサイズ:1M、128K、64K、16K、8K
- スレッド数:128、64、32、16、8、4、1
- ジョブ数:16
- バッチサイズ:16
最初にQLCベースのD5-P5336を調べたところ、IO深度128で1M転送サイズを使用して最大4.2GiB/sに達しました。ブロックサイズの効果は、8Kから1Mに移動することで帯域幅を大幅に向上させました。IO深度の増加の利点は32で低下し始め、ワークロードは平準化し始めました。
次に、Gen5 PS-1010を調べます。これは、1Mブロックサイズと128のIO深度で最大6.2GiB/sまでスケールできます。全体として、Gen4ベースのP5336を上回り、特に一部のワークロードでは大幅な向上が見られました。改善の注目すべき領域の1つは、128Kブロックサイズで、IO深度64および128で、PS1010はP5336の読み取り帯域幅の2倍を提供しました。
両方のSSDがNVIDIA L4を使用してテストされたことに注意することが重要です。Gen4 D5-P5336はトップエンドに近いですが、H100のような上位モデルのNVIDIA GPUはD7-PS1010でより高いパフォーマンスを示しました。ドライブの速度は一部の顧客にとって最終的な決定要因ですが、他の顧客は全体的な密度を優先します。Solidigmはソリューションを提供しますQLCとTLCのSSD製品の両方で。結論
AIトレーニングの規模と複雑さが急増し続けるにつれて、基盤となるストレージインフラストラクチャはペースを維持するだけでなく、テンポを設定する必要があります。2つの異なるSSDでのテストは、チェックポイントのレイテンシを最小限に抑えるか、コスト効率の高いスケーラビリティのためにチェックポイントの密度を最大化するかに関わらず、特定のトレーニングの優先順位に合わせてストレージソリューションを調整することの重要性を強調しています。
評価では、DLIOベンチマークと広範なハイブリッド並列LLMチェックポインティングワークフローを活用して、現実的なAIトレーニング条件下でSolidigm D5-P5336(61.44TB)とD7-PS1010(7.68TB)をテストしました。ドライブが満杯になるにつれて複数のテスト実行にわたるチェックポイント書き込みパフォーマンスを反映するメトリックをキャプチャし、Gen4 QLCベースのD5-P5336とGen5 TLCベースのD7-PS1010間の完了時間のパフォーマンスの違いを強調しました。
D7-PS1010は可能な限り高速なチェックポイント書き込みを実現しましたが、D5-P5336は、わずかなパフォーマンスのトレードオフで、魅力的なコスト効率と容量の利点を示しました。さらに、NVIDIA L4 GPUを使用したGDSIOによるGPU Direct Storage(GDS)読み取り帯域幅を調査しました。調査の結果、Solidigm D5-P5336は1M転送サイズで最大4.2GiB/sの読み取り帯域幅を提供し、D7-PS1010は6.2GiB/sへの大幅な向上をもたらしました。NVIDIA L40sまたはH100/H200のようなより強力なGPUを利用すると、パフォーマンスはさらに印象的になります。
今後、Solidigm D5-P5336 122TB SSDの前例のない容量は、AIトレーニングと展開を再構築する準備ができています。モデルサイズとチェックポインティング要件が増加し続けるにつれて、これらの大容量ドライブは、これまで達成できなかったトレーニング戦略を可能にする、新しいレベルの効率と柔軟性を解き放ちます。大容量SSDソリューションにおけるSolidigmのリーダーシップは、組織がより少ないドライブにより多くのデータとチェックポイントを保存できるようにすると同時に、AIの複雑さの次の波に対してインフラストラクチャを将来性のあるものにするのに役立ちます。
北京千星捷通科技有限公司
サンディ・ヤン/グローバル戦略ディレクター
WhatsApp / WeChat: +86 13426366826
Eメール: yangyd@qianxingdata.com
ウェブサイト: www.qianxingdata.com/www.storagesserver.com
ビジネスフォーカス:
ICT製品流通/システムインテグレーション&サービス/インフラストラクチャソリューション
20年以上のIT流通経験を持ち、主要なグローバルブランドと提携して、信頼性の高い製品とプロフェッショナルサービスを提供しています。
「テクノロジーでインテリジェントな世界を構築する」あなたの信頼できるICT製品サービスプロバイダー!