エンドツーエンドのメモリとストレージ階層をカバーするこの多層セットアップは、継続的なレイテンシと容量の勾配を実現します。これにより、NVIDIA Dynamo は、ストレージ スタック全体にわたってインテリジェントなキャッシュの配置、自動エビクション、動的なデータの再ロードを実行し、さまざまなワークロードのアクセス パターンとインフラストラクチャの総コスト予算に柔軟に適応できます。
研究チームはレッドブックで次のように結論付けています。「高価な GPU ハードウェアへの投資で ROI の最大化を目指す企業にとって、この検証済みの統合アーキテクチャは、推論スループットの向上、エンドツーエンドのレイテンシーの削減、より高いサービスの同時実行性のサポート、よりコスト効率の高い大規模 AI 推論インフラストラクチャの構築に対する、直接的な実稼働対応のアプローチを提供します。」