IBMは、AIデータ処理をストレージ層に直接組み込むコンテンツアウェアストレージ(CAS)アーキテクチャを発表しました。このアプローチは、ドキュメントのベクトル化をストレージシステム自体に統合することで、外部の前処理パイプラインの必要性を削減し、検索拡張生成(RAG)ワークフローに最適化されています。
CASは、RAGの主要な機能である大規模言語モデル(LLM)ベースの方法によるドキュメント埋め込みをストレージインフラストラクチャに移行します。これにより、企業は既存の場所でデータを処理およびインデックス化でき、ストレージシステムをAI駆動型ワークロードに適合させ、異なるインフラストラクチャ階層間でのデータ移動を最小限に抑えることができます。IBMはこれを、デプロイメントを簡素化しながらパフォーマンスを向上させ、AIアプリケーションのデータローカリティを強化する手段として位置付けています。
大規模なベクトルデータベース
IBMのCAS実装の中核には、セマンティック検索に最適化されたベクトルデータベースがあります。ベクトルデータベースは近似最近傍(ANN)検索をサポートしており、AIシステムはコサイン類似度やL2距離などの類似性メトリックに基づいて関連データチャンクを検索できます。この機能はRAGに不可欠であり、ユーザーのクエリはベクトルに変換され、インデックス化されたエンタープライズデータと照合されて、コンテキストを認識した応答を提供します。
IBM CASチャート出典: IBM
IBM Researchは、SamsungおよびNVIDIAと協力して、単一サーバーで1000億ベクトルに拡張可能なプロトタイプシステムを展示しました。このシステムは、90%以上のリコールと精度を達成し、平均クエリレイテンシは700ミリ秒未満でした。この規模は、データセットが数十億ファイルに及び、完全にインデックス化されると数百億ベクトルに成長する可能性のあるエンタープライズ環境に対応します。
RAGパイプライン統合
RAGは、モデルの再トレーニングなしで出力精度を向上させるため、エンタープライズAIで好まれるアプローチになりつつあります。これは、ベクトルデータベースから取得したエンタープライズ固有のデータでプロンプトを補完することによって機能します。
パイプラインはデータ取り込みから始まり、PDFやプレゼンテーションなどのドキュメントが解析され、チャンクに分割され、埋め込みに変換されます。これらの埋め込みは、効率的な類似性検索のためにデータを整理するベクトルデータベースに格納されます。クエリ実行中、ユーザー入力は埋め込まれ、格納されたベクトルと照合され、関連コンテンツがコンテキストとして言語モデルに渡されます。このグラウンディングメカニズムは、幻覚を減らし、AI生成出力への信頼を高めます。
IBMのCASは、このパイプライン全体をストレージに直接統合し、取り込み、インデックス作成、検索をデータに近い場所で統合します。
規模とコストの課題への対応
エンタープライズストレージシステムはすでにペタバイト規模で稼働しています。CASに拡張すると、各ファイルが数百のベクトルを生成する可能性があり、データセットサイズは急速に拡大します。従来のベクトルデータベースは通常、複数のサーバーにスケールアウトするため、追加のコストと運用上の複雑さが生じます。大規模データセットのインデックス作成と再インデックス作成も、時間のかかるタスクになります。
IBMのアプローチは、ベクトル密度を向上させ、インデックス作成のオーバーヘッドを削減することに焦点を当て、インフラストラクチャのスプロールを制限します。このアーキテクチャは、ベクトルとインデックスのストレージをクエリコンピューティングから分離し、ストレージとコンピューティングリソースの独立したスケーリングを可能にします。これは、IBM Storage Scaleとその高性能並列ファイルシステムによって実現されます。
ストレージおよびハードウェアアーキテクチャ
CAS実装は、AIおよび高性能ワークロード向けに設計されたオールフラッシュプラットフォームであるIBM Storage Scale System 6000(ESS 6000)を活用しています。このシステムは、4Uエンクロージャーあたり最大48個のNVMeドライブをサポートし、個々のドライブ容量は7TBから60TBまでです。PCIe Gen5、400Gb InfiniBand、または200Gb Ethernet接続を統合し、ノードあたり最大340GB/sの読み取りスループットと175GB/sの書き込みスループット、および最大700万IOPSを提供します。
このプラットフォームは、NVIDIA GPUDirect Storageもサポートしており、ストレージとGPU間の直接データパスを促進するほか、BlueField-3 DPUを使用してネットワークおよびデータ処理タスクをオフロードします。
Samsung PM9D3a PCIe Gen5 NVMe SSDは、高スループット、高密度のストレージを提供します。第8世代TLC V-NANDをベースにしたこれらのドライブは、デバイスあたり最大30.72TBを提供し、シーケンシャル読み取り速度は最大12GB/s、書き込み速度は最大6.8GB/sです。市販のエンタープライズSSDを使用することで、アーキテクチャは標準コンポーネントを使用してスケーリングできます。
階層型インデックス作成とGPUアクセラレーション
大規模なインデックス作成に対処するため、IBMは複数のサブインデックスで構成される階層型インデックス作成モデルを開発し、これらは個別に最適化できます。この構造により、データセット全体を中断することなく増分更新とローカライズされた再インデックス作成が可能になり、可用性と運用効率の両方が向上します。
GPUアクセラレーションは、CPUのみのアプローチと比較してインデックス作成時間を劇的に短縮します。CPUで数時間かかるタスクは、NVIDIA GPUを使用すると数分で完了できます。テストでは、1000億ベクトルのインデックス構築に6つのNVIDIA H200 GPUで4日かかりましたが、デュアルソケットCPUシステムでは推定120日でした。
ベクトルとインデックスを含む完全なデータセットは、約153TiBのストレージを消費しました。初期データロードとパーティショニングには9日かかりました。結果として得られたシステムは、ブルートフォースのグラウンドトゥルース計算に対して検証され、90%のリコールで平均クエリレイテンシ694msを提供しました。
ロードマップ
IBMとNVIDIAは、インデックス作成とクエリレイテンシの削減に焦点を当ててプラットフォームの最適化を続けています。現在の目標は、1日で1000億以上のベクトルをインデックス化し、データ取り込み時間を9日から1日に短縮し、90%のリコールを維持しながらクエリレイテンシを50〜100ミリ秒の範囲に削減することです。
標準ファイルシステムにベクトルインデックス作成を統合することで、デプロイメントが簡素化され、エンタープライズAI導入の障壁が低くなります。RAG機能をストレージに直接組み込むことで、IBMはCASをAI対応インフラストラクチャの基盤レイヤーとして位置付けています。
北京千行捷通科技有限公司
Sandy Yang/グローバル戦略ディレクター
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
ビジネスフォーカス:
ICT製品流通/システムインテグレーション&サービス/インフラストラクチャソリューション
20年以上のIT流通経験を持ち、主要グローバルブランドと提携して信頼性の高い製品と専門的なサービスを提供しています。
「テクノロジーでインテリジェントな世界を構築する」あなたの信頼できるICT製品サービスプロバイダー!
Sandy Yang/グローバル戦略ディレクター
WhatsApp / WeChat: +86 13426366826
Email: yangyd@qianxingdata.com
Website: www.qianxingdata.com/www.storagesserver.com
ビジネスフォーカス:
ICT製品流通/システムインテグレーション&サービス/インフラストラクチャソリューション
20年以上のIT流通経験を持ち、主要グローバルブランドと提携して信頼性の高い製品と専門的なサービスを提供しています。
「テクノロジーでインテリジェントな世界を構築する」あなたの信頼できるICT製品サービスプロバイダー!



