logo
ホーム 事例

WEKAはAIインフェルンスメモリボトルネックに対処するためにNVIDIA STXとニューラルメッシュを統合

認証
中国 Beijing Qianxing Jietong Technology Co., Ltd. 認証
中国 Beijing Qianxing Jietong Technology Co., Ltd. 認証
顧客の検討
北京Qianxing Jietongの技術Co.、株式会社の販売スタッフは非常に専門および忍耐強い。それらは引用語句をすぐに提供してもいい。プロダクトの質そして包装はまた非常によい。私達の協同は非常に滑らかである。

—— 《のFestfing DVの》 LLC

私がIntel CPUおよび東芝SSDを緊急に捜していたときに、北京Qianxing Jietongの技術Co.、株式会社からのサンディは私に多くの助けを与え、私に私がすぐに必要としたプロダクトを得た。私は実際に彼女を認める。

—— キティ円

北京Qianxing Jietongの技術Co.、株式会社のサンディは私がサーバーを買う時間の構成間違いを私に思い出させることができる非常に注意深いセールスマンである。エンジニアはまた非常に専門で、すぐにテスト プロセスを完了できる。

—— Strelkin Mikhail Vladimirovich

北京千星捷通との仕事は大変満足しています。製品の品質は素晴らしく、納期も常に守られています。営業チームはプロフェッショナルで、忍耐強く、私たちの質問にすべて丁寧に対応してくれます。彼らのサポートに心から感謝しており、長期的なパートナーシップを期待しています。強くお勧めします!

—— アフマド・ナビド

品質: 提供者との素晴らしい経験. MikroTik RB3011は既に使用されていましたが,非常に良い状態で,すべてが完璧に動作しています. コミュニケーションは迅速でスムーズでした.そして私の懸念はすぐに解決されました信頼性の高いサプライヤーです 強くお勧めします

—— ゲラン・コレシオ

オンラインです

WEKAはAIインフェルンスメモリボトルネックに対処するためにNVIDIA STXとニューラルメッシュを統合

April 10, 2026
WEKAは、NVIDIA STXリファレンスアーキテクチャとのNeuralMeshプラットフォームの統合を発表し、同社のAugmented Memory Gridを次世代AIインフラストラクチャの主要なビルディングブロックとして確立しました。この統合ソリューションは、大規模推論環境における最も重要なボトルネックの1つである、パフォーマンス、総所有コスト、およびスケーラブルな成長に直接影響を与えるメモリ制約に対処します。

NeuralMeshを介して動作するWEKAのAugmented Memory Gridは、キーバリューキャッシュを外部化して永続化することにより、GPUメモリを拡張します。NVIDIA STXと組み合わせて展開されるこのアーキテクチャは、エージェント型AIワークロード向けのハイ・スループットなコンテキストメモリストレージを提供し、セッション、ツール、およびエンドツーエンドのワークフロー全体での長文脈推論をサポートします。同社によると、NVIDIA Vera Rubin NVL72システム、BlueField-4 DPU、およびSpectrum-X Ethernetを組み合わせた構成は、コンテキストメモリトークン・スループットを4倍から10倍に向上させることができます。このプラットフォームは、少なくとも320 GB/sの読み取りスループットと150 GB/sの書き込みスループットを提供し、従来のAIストレージアーキテクチャのパフォーマンスを2倍以上に向上させると予測されています。

最新の会社の事例について WEKAはAIインフェルンスメモリボトルネックに対処するためにNVIDIA STXとニューラルメッシュを統合  0

メモリインフラストラクチャが推論のボトルネックとなる


WEKAはこの統合の中心に、最新のAIデプロイメントにおける増大するメモリウォール(メモリの壁)の課題を置いています。今日の推論パイプラインでは、帯域幅の高いGPUメモリが限られているため、KVキャッシュの頻繁な追い出しが発生し、再計算の繰り返しと運用効率の低下につながります。システム同時実行性が高まるにつれて、これらの非効率性は増幅され、インフラストラクチャ費用が増加し、パフォーマンスの予測可能性が低下します。

同社は、共有KVキャッシュインフラストラクチャをソリューションとして推進しています。永続的なコンテキストをユーザーおよびセッション全体で保持することにより、共有キャッシュは冗長な処理を排除し、トークン・スループットを安定させます。NVIDIA STXはこのモデルの検証済みリファレンスアーキテクチャを提供し、WEKAはストレージおよびメモリ拡張レイヤーを提供します。

NeuralMeshとAugmented Memory Gridアーキテクチャ


NeuralMeshはWEKAの分散ストレージプラットフォームとして機能し、NVIDIA STXスタック全体にシームレスに統合できるように構築されています。AIワークロード向けに最適化された高性能データサービスを提供し、Augmented Memory Gridは、KVキャッシュをGPUメモリ外に集約する専用のメモリ拡張レイヤーとして機能します。

この設計により、推論環境はGPUリソースを過負荷にすることなく、長文脈セッションを維持できます。キャッシュ状態を保持し、ワークロード全体での再利用を可能にすることで、デプロイメントがスケーリングしても、プラットフォームは高い利用率と一貫したパフォーマンスを維持します。

WEKAは、GTC 2025で初めて発表され、現在一般提供されているAugmented Memory Gridが、NVIDIA Grace CPUプラットフォームとBlueField DPUのペアで検証されていることを指摘しています。このアーキテクチャは、推論効率において測定可能な改善をもたらし、最初のトークンまでの時間が劇的に短縮され、GPUあたりのトークン・スループットが高くなり、同時実行性が増加してもパフォーマンスが安定します。データパスをBlueField-4にオフロードすることで、CPUオーバーヘッドも削減され、I/Oボトルネックも緩和されます。

パフォーマンスと効率の向上


本番環境に近い環境では、このプラットフォームは応答性とインフラストラクチャ効率を高めるように設計されています。WEKAによると、Augmented Memory Gridは、最初のトークンまでの時間を4倍から20倍に短縮し、GPUあたりのトークン出力を最大6.5倍に増加させることができます。これらの改善は、KVキャッシュのヒット率の向上と再計算サイクルの削減から生じ、コンテキストサイズとユーザー数が拡大してもシステムがパフォーマンスを維持できるようになります。

AIインフラストラクチャプロバイダーであるFirmusは、NVIDIAベースのインフラストラクチャでNeuralMeshを活用している早期導入者として紹介されています。同社は、追加のハードウェア展開ではなく、既存のGPUのより効率的な使用から得られる、スケーリング時のトークン・スループットの向上とレイテンシの低下を報告しています。

AIインフラストラクチャ設計への影響


この統合は、メモリとストレージ戦略が全体的なパフォーマンスとコスト効率をますます定義するAIシステム設計のシフトを浮き彫りにしています。エージェント型AIワークロードが拡大し、コンテキストウィンドウが広がるにつれて、再計算コストの増加とGPUの利用率低下により、DRAMのみのアプローチは持続不可能になります。

WEKAは、永続的で共有されたKVキャッシュをAIファクトリの基盤となる機能として位置付けています。このモデルを採用する組織は、GPU利用率の向上、推論タスクあたりのエネルギー消費量の削減、およびより予測可能なスケーリングを実現できます。対照的に、ローカルGPUメモリのみに依存する環境は、ワークロードが増加するにつれて運用コストの増加と収益の低下に直面する可能性が高いです。

北京千星捷通科技有限公司
Sandy Yang / グローバル戦略ディレクター
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
ビジネスフォーカス:
ICT製品流通/システムインテグレーション&サービス/インフラストラクチャソリューション
20年以上のIT流通経験を持ち、主要なグローバルブランドと提携して信頼性の高い製品とプロフェッショナルサービスを提供しています。
「テクノロジーでインテリジェントな世界を構築する」あなたの信頼できるICT製品サービスプロバイダー!
連絡先の詳細
Beijing Qianxing Jietong Technology Co., Ltd.

コンタクトパーソン: Ms. Sandy Yang

電話番号: 13426366826

私達に直接お問い合わせを送信 (0 / 3000)