WEKAは、NVIDIA STXリファレンスアーキテクチャとのNeuralMeshプラットフォームの統合を発表し、同社のAugmented Memory Gridを次世代AIインフラストラクチャの主要なビルディングブロックとして確立しました。この統合ソリューションは、大規模推論環境における最も重要なボトルネックの1つである、パフォーマンス、総所有コスト、およびスケーラブルな成長に直接影響を与えるメモリ制約に対処します。
NeuralMeshを介して動作するWEKAのAugmented Memory Gridは、キーバリューキャッシュを外部化して永続化することにより、GPUメモリを拡張します。NVIDIA STXと組み合わせて展開されるこのアーキテクチャは、エージェント型AIワークロード向けのハイ・スループットなコンテキストメモリストレージを提供し、セッション、ツール、およびエンドツーエンドのワークフロー全体での長文脈推論をサポートします。同社によると、NVIDIA Vera Rubin NVL72システム、BlueField-4 DPU、およびSpectrum-X Ethernetを組み合わせた構成は、コンテキストメモリトークン・スループットを4倍から10倍に向上させることができます。このプラットフォームは、少なくとも320 GB/sの読み取りスループットと150 GB/sの書き込みスループットを提供し、従来のAIストレージアーキテクチャのパフォーマンスを2倍以上に向上させると予測されています。
メモリインフラストラクチャが推論のボトルネックとなる
WEKAはこの統合の中心に、最新のAIデプロイメントにおける増大するメモリウォール(メモリの壁)の課題を置いています。今日の推論パイプラインでは、帯域幅の高いGPUメモリが限られているため、KVキャッシュの頻繁な追い出しが発生し、再計算の繰り返しと運用効率の低下につながります。システム同時実行性が高まるにつれて、これらの非効率性は増幅され、インフラストラクチャ費用が増加し、パフォーマンスの予測可能性が低下します。
同社は、共有KVキャッシュインフラストラクチャをソリューションとして推進しています。永続的なコンテキストをユーザーおよびセッション全体で保持することにより、共有キャッシュは冗長な処理を排除し、トークン・スループットを安定させます。NVIDIA STXはこのモデルの検証済みリファレンスアーキテクチャを提供し、WEKAはストレージおよびメモリ拡張レイヤーを提供します。
NeuralMeshとAugmented Memory Gridアーキテクチャ
NeuralMeshはWEKAの分散ストレージプラットフォームとして機能し、NVIDIA STXスタック全体にシームレスに統合できるように構築されています。AIワークロード向けに最適化された高性能データサービスを提供し、Augmented Memory Gridは、KVキャッシュをGPUメモリ外に集約する専用のメモリ拡張レイヤーとして機能します。
この設計により、推論環境はGPUリソースを過負荷にすることなく、長文脈セッションを維持できます。キャッシュ状態を保持し、ワークロード全体での再利用を可能にすることで、デプロイメントがスケーリングしても、プラットフォームは高い利用率と一貫したパフォーマンスを維持します。
WEKAは、GTC 2025で初めて発表され、現在一般提供されているAugmented Memory Gridが、NVIDIA Grace CPUプラットフォームとBlueField DPUのペアで検証されていることを指摘しています。このアーキテクチャは、推論効率において測定可能な改善をもたらし、最初のトークンまでの時間が劇的に短縮され、GPUあたりのトークン・スループットが高くなり、同時実行性が増加してもパフォーマンスが安定します。データパスをBlueField-4にオフロードすることで、CPUオーバーヘッドも削減され、I/Oボトルネックも緩和されます。
パフォーマンスと効率の向上
本番環境に近い環境では、このプラットフォームは応答性とインフラストラクチャ効率を高めるように設計されています。WEKAによると、Augmented Memory Gridは、最初のトークンまでの時間を4倍から20倍に短縮し、GPUあたりのトークン出力を最大6.5倍に増加させることができます。これらの改善は、KVキャッシュのヒット率の向上と再計算サイクルの削減から生じ、コンテキストサイズとユーザー数が拡大してもシステムがパフォーマンスを維持できるようになります。
AIインフラストラクチャプロバイダーであるFirmusは、NVIDIAベースのインフラストラクチャでNeuralMeshを活用している早期導入者として紹介されています。同社は、追加のハードウェア展開ではなく、既存のGPUのより効率的な使用から得られる、スケーリング時のトークン・スループットの向上とレイテンシの低下を報告しています。
AIインフラストラクチャ設計への影響
この統合は、メモリとストレージ戦略が全体的なパフォーマンスとコスト効率をますます定義するAIシステム設計のシフトを浮き彫りにしています。エージェント型AIワークロードが拡大し、コンテキストウィンドウが広がるにつれて、再計算コストの増加とGPUの利用率低下により、DRAMのみのアプローチは持続不可能になります。
WEKAは、永続的で共有されたKVキャッシュをAIファクトリの基盤となる機能として位置付けています。このモデルを採用する組織は、GPU利用率の向上、推論タスクあたりのエネルギー消費量の削減、およびより予測可能なスケーリングを実現できます。対照的に、ローカルGPUメモリのみに依存する環境は、ワークロードが増加するにつれて運用コストの増加と収益の低下に直面する可能性が高いです。
北京千星捷通科技有限公司
Sandy Yang / グローバル戦略ディレクター
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
ビジネスフォーカス:
ICT製品流通/システムインテグレーション&サービス/インフラストラクチャソリューション
20年以上のIT流通経験を持ち、主要なグローバルブランドと提携して信頼性の高い製品とプロフェッショナルサービスを提供しています。
「テクノロジーでインテリジェントな世界を構築する」あなたの信頼できるICT製品サービスプロバイダー!
Sandy Yang / グローバル戦略ディレクター
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
ビジネスフォーカス:
ICT製品流通/システムインテグレーション&サービス/インフラストラクチャソリューション
20年以上のIT流通経験を持ち、主要なグローバルブランドと提携して信頼性の高い製品とプロフェッショナルサービスを提供しています。
「テクノロジーでインテリジェントな世界を構築する」あなたの信頼できるICT製品サービスプロバイダー!



