Lightbits LabsとScaleFluxは、LightInferraキャッシュソフトウェアを活用してScaleFluxの計算ストレージSSDからデータを読み取ることで、KVキャッシュワークロードで「100倍から280倍のパフォーマンス向上」を達成しました。両社はFarmGPUデータセンター環境にデプロイされたGPUにKVキャッシュデータを提供し、Nvidiaの次期GTCカンファレンスでこのブレークスルーを発表します。KVキャッシュは、GPUの高帯域幅メモリ(HBM)にトークンベクトルを格納します。HBM容量が枯渇すると、KVキャッシュデータブロックを再計算する必要があり、時間がかかり、AIトレーニングおよび推論速度が低下します。AIワークロードがスケールアップし、ベクトル生成に使用されるトークン数が急増すると、この遅延は特に顕著になります。KVキャッシュソフトウェアは、キャッシュレイヤーを論理的に外側に拡張します。まずGPUサーバーのx86 CPUとそのDRAMに、次に同じx86システム内のローカルNVMeドライブに、さらに外部NVMe SSDに拡張します。この階層的な拡張により、トークンベクトルの再計算が不要になります。NVMe SSDはHBMやDRAMよりもアクセスレイテンシが高いですが、事前計算されたトークンベクトルの取得は、ゼロから数万個を再計算するよりもはるかに高速です。LightbitsとScaleFluxは、同社のソリューションがSSDからのKVキャッシュデータ取得を劇的に加速すると主張しています。
Lightbits LabsのAIアーキテクチャディレクターであるArthur Rasmusson氏は、「推論メモリをリアクティブなキャッシュからインテリジェントなストリーミングデータレイヤーへと変革しています」と述べています。
どのように?
「必要なデータのみをプリフェッチし、必要とされる前に高速RDMA経由でGPUに配信することで、従来はロングコンテキストパフォーマンスを制限していたストールを排除します。その結果、Time-to-First-Token(TTFT)が短縮され、実負荷下でのスループットが安定し、GPUの有効利用率が大幅に向上します。」
ScaleFluxのソリューションアーキテクチャおよびテクニカルパートナーシップ担当シニアディレクターであるKeith McKay氏は、「GTCで示すのは、よりスマートなデータ配置と永続的なアテンション状態管理が、コンテキストウィンドウが拡大しても推論システムを応答性高く保つのにどのように役立つかの初期段階です。これは、実際のオペレーターと協力して形成していきたいコラボレーションです。」とコメントしています。
LightbitsとScaleFluxの両社は、クラウドおよびインフラストラクチャオペレーターにソフトウェアとSSDを採用してもらい、コストのかかるGPUアイドル時間をなくすことを目指しています。
まずScaleFluxの貢献を検討し、次に洗練されたLightbitsソフトウェアレイヤーに進みます。
ScaleFluxは、ハードウェアベースの書き込み削減技術(WRT)を搭載したNVMe SSDおよび計算ストレージドライブ(CSD)を提供しています。ハードウェアアクセラレーションされた圧縮とSoC駆動のメタデータ管理により、これらのドライブは物理ストレージの最大4倍の論理容量を提供しながら、ホストシステムに対して完全に透過的です。同社はOpen Flash Platform(OFP)コンソーシアムのメンバーであり、高密度、低レイテンシ、電力効率の高いシステムでAIデータインフラストラクチャを再定義することに取り組んでおり、従来のファイルベースAIストレージの10倍の密度と10分の1の消費電力を提供しています。
これらのストレージドライブを基盤として、LightbitsはGPUが必要とする「前」にKVキャッシュデータのインテリジェントなプリフェッチを追加し、KV容量不足やトークンベクトルの再計算によるコスト増によるストールを防ぎます。LightInferraソフトウェアは、KVキャッシュ最適化キャッシュアルゴリズムを使用して、実際の需要に先立って必要なデータをRDMA速度でGPUメモリにプルします。
再び、どのように?
このソフトウェアはGPUサーバーに組み込まれたx86ホストで実行され、KVキャッシュデータブロックのアクセスパターンを追跡します。このテレメトリを使用して、次に必要とされる可能性が最も高いKVブロックを特定するSub-Linear Sparse Attention Prefetch(SLSAP)エンジンを動作させます。このエンジンは、局所性鋭敏型ハッシュ(LSH)と統計的再利用モデリングを組み合わせて、アテンション計算における過去のアクセス局所性を分析し、KVブロックをスコアリングして優先順位を付け、GPUによって要求される確率が最も高いブロックを選択します。この選択プロセスは、GPUデータアクセスにおける固有のスパース性を利用しています。ほとんどのトークンは、前のトークンのごく一部にのみ意味的に関連しています。この高確率ブロックを分離することで、ソリューションはGPUにストリーミングバックする必要のあるトークンベクトルの量を劇的に削減します。
2番目のアルゴリズムは再利用パターンに焦点を当てています。最近のトークン、意味的に類似したトークン、およびRAGまたはマルチターンのチャットシナリオで一般的な構造パターンは頻繁に再利用され、それに応じて優先順位が付けられます。
LightInferraは、これらのトークンブロックをまずx86サーバーのDRAMから、必要に応じて外部ScaleFlux SSDから取得し、RDMAリンク経由でGPUのHBMにプリロードします。
Lightbitsは、大規模言語モデルワークロードを使用してキャッシュコンテンツをゼロから再計算する場合と比較して、このアプローチをベンチマークし、Time-to-First-Token(TTFT)の改善を測定しました。報告されている100倍から280倍の加速率は、これらのテスト結果から直接導き出されています。
もちろん、Lightbits-ScaleFlux KVキャッシュアクセラレーション「スキーム」と、DDN、Hammerspace、VAST Data、WEKAなどのKVキャッシュアクセラレータとのベンチマーク結果を見てみたいのですが、それらは「利用できません」。
LightInferra-ScaleFluxがモデルサイズが増加するにつれてキャッシュ再生成TTFTを段階的に改善した方法を示すチャートがあります。例:
関連するすべてのベンチマークデータは、主にコンピュータサイエンスの専門家向けに調整されたログスケールチャートで提示されていますが、平易な言葉遣いにより、実際のインパクトがはるかに理解しやすくなっています。「結果は、コンテキストが10万トークンから100万トークン以上にスケーリングしても、持続的なTime-to-First-Token(TTFT)パフォーマンスです。」
FarmGPUのJonmichael Hands氏が言うように、40万トークンの会話が再開され、システム全体でKVキャッシュをゼロから再生成する必要がある場合、それはGPU実行時間で2分間、トークンが1つも生成されないことを意味します。LightInferraは経済モデルを完全に変えます。同じワークロードで最初のトークンが0.5秒未満で生成され、実行不可能な製品ティアが収益性の高いものに変わります。

LightbitsとScaleFluxは、この共同ソリューションを、数百または数千の同時AIモデルワークロードを実行する大規模GPUポッドを備えた次世代ネオクラウドGPUファーム向けに特別に設計しました。これらのワークロードのほぼすべてが、GPUの高帯域幅メモリ(HBM)のKVキャッシュ容量の限界に達します。
「従来のセットアップでは、チームは2つのコストのかかる選択肢に直面します。汎用外部ストレージからトークンベクトルを遅く取得するか、それらのベクトルをゼロから再計算するというはるかに時間のかかるプロセスです。どちらもGPUを何時間もアイドル状態のままにします。LightInferraとScaleFluxの組み合わせは、この壊滅的な業界のペインポイントを完全に排除します。
FarmGPUのCEOであるJonmichael Hands氏は、「Lightbitsの高速ネットワークストレージは、ロングコンテキスト推論に多くの新しいユースケースを解き放ちます。当社のマネージドサービスとScaleFlux NVMeドライブで実行されるLightbitsの高性能ストレージを組み合わせることで、最初のトークンまでの時間を短縮し、GPU利用率を向上させ、推論ワークロードの総所有コスト(TCO)を大幅に削減できます。」と付け加えています。
北京千行捷通科技有限公司
Sandy Yang/グローバル戦略ディレクター

WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Website:
www.qianxingdata.com/www.storagesserver.com
ビジネスフォーカス:
ICT製品流通/システムインテグレーション&サービス/インフラストラクチャソリューション
20年以上のIT流通経験を持ち、主要グローバルブランドと提携して信頼性の高い製品とプロフェッショナルサービスを提供しています。
「テクノロジーでインテリジェントな世界を構築する」あなたの信頼できるICT製品サービスプロバイダー!