Google Cloud Nextで,Googleは第8世代のAIアクセラレータを公開しました. 訓練用のTPU v8t ′′Sunfish′′と推論用のTPU v8i ′′Zebrafish′′が,新しいVirgoデータセンターファブリックと共に登場しました.アジェント的なAIの時代に合わせてこのチップは,大規模なミックス・オブ・エキスパート (MoE) モデルのトレーニングと低レイテンシートークンに最適化され,コスト効率の良い価格設定が可能です.v8tとv8iはメモリで異なりますSRAM,トポロジー,ハードウェアの専門化
V8tのスーパーポッドは,HBM2PBの9600チップをサポートし,FP4コンピューティングの121EFLOPSを提供しており,以前のアイアンウッド世代の3倍近くです.152個のチップで288GBのHBMと384MBのオンチップSRAMヴァージン・ファブリックは 134,000 V8tチップを相互接続していますアクセラレータ毎のスループットが4倍高く,レイテンシーが40%低くなっている..
基本TPUアーキテクチャとGPU
TPUは,大型マトリックスマルチプリキュアユニット (MXU),ソフトウェア管理 SRAM,時間前のコンパイルで特徴付けられるカスタム ASICである. GPUのダイナミックなスモールコアスケジューリングとは異なり,TPUは,シストリック配列の決定的なデータフローを特徴とする密度の高いマトリックスワークロードでFLOPSの利用率を高めるため,キャッシュジッターとワープスケジューリングのオーバーヘッドを排除する.しかし,TPUはダイナミックな形と闘います.不規則な稀有性と複雑なグラフネットワークJAXとXLAが支配するより狭いソフトウェアエコシステムサポートも提供しています.
スパースティサポートの構造的違いは,TPUとGPUを明確に区別する.NVIDIA Tensor Coresは,命令レベルの圧縮を通じて2:4構造的スパースティをネイティブでサポートする.TPUシストリックマレイは固いロックステップで動作しますAWS Trainium2は,配列のスループットを維持するために専用の稀有デコンプレッサーを採用している.
TPUは,SparseCoresを統合し,テーブルを埋め込み,MoEルーティングのための不規則な集合分散タスクを処理する.これらの専門コアは,ソート,パーミュテーション,データ再配置に優れている.標準MXUが効率的に処理できない推奨作業負荷と専門家トークンの配送をカバーする.
TPU v8t ザ・サンフィッシュ 訓練加速器
V8tトレーニングチップは216GBのHBM3eメモリと128MBのSRAMを備えています.ネイティブFP4の精度はサイクル毎のスループットを倍増し,シングルチップコンピューティングを12.6PFLOPSに押し上げます.3Dトーラス接続を保持し,アップグレード 19.2 Tb/s ICI 帯域幅 大規模な訓練におけるリングベースの集団通信に最適です
継承されたSparseCoresは,MoEの不規則なすべてからすべてへのデータ転送を最適化します. 2つの重要なアップグレードは大規模なボトルネックを解除します:TPUDirect RDMA と TPUDirect Storage は,ホスト CPU をバイパスして直接 TPU メモリ アクセスを可能にしますV8tは,GoogleのAxion CPUをホストプロセッサとして採用している.ホストジッターの隔離と同期マルチチップトレーニングのための事前処理安定性の向上.
TPU v8i ザブラフィッシュ 推論加速器
メモリ帯域幅に縛られた推論ワークロードのために構築された v8iは低レイテンシートークン生成を優先します384 MB の SRAM を搭載し,IRONWOOD の3倍もの RAM を搭載し,KV キャッシュをチップ上にキャッシュし,HBM の読み取りを繰り返すのを減らす.. 2つの TensorCore と 288 GB の HBM3e を搭載し,より持続的な利用のために短バッチ推論タスクを重複し,10.1 PFLOPS FP4 コンピューティングを達成する.
SparseCoresを置き換え,専用のコレクティブ・アクセレレーション・エンジン (CAE) は,チップ上の同期遅延を最大5倍削減し,頻繁な小批量コレクティブ・オペレーションを最適化します.V8iはDragonflyベースの Boardflyトポロジーのために3Dトロスを放棄する最大のチップ対チップホップを16から7に削減し,MoEのオールツーオールレイテンシーを50%削減します.
処女と木星 織物階層
Virgoはデータセンター内のスケールアウト構造として機能し,東西AIトラフィックのオーバーサブスクリプションを排除するために 2層の非ブロックアーキテクチャを採用しています.V8tスーパーポッドの 97%の性能を維持しますJUPITERと組み合わせると,Googleの長距離クロスデータセンターファブリックが 1 つの論理クラスターで100万以上のTPUチップをサポートします.7 ZFLOPS 合計 FP4 計算.
性能,TCO,市場位置
高出力と安定したモデルFLOP利用 (MFU) は,TPUに説得力のあるコスト優位性を与えます.MFUの40%で,TPUのトレーニングコストはNVIDIA GB300よりも62%低くなっています.ハードウェアと比較して,v8t 密度 FP4 の性能は GB200 と GB300 の間でGoogleは,NVIDIAの72GPU NVLinkドメインをはるかに上回る9,600チップのシングルポッドで大規模クラスタリングをリードしている.
NVIDIAのVera Rubin,Rubin Ultra,Kyberは,2026年から2027年にかけてTPUのパフォーマンスギャップを縮小する.TPUの弱点は,チップ1台あたりより小さいHBM,ハードウェアの稀少性と生態系互換性が限られているしかし,Googleは大規模なクラスタリング,決定的な遅延,MoEワークロードのコスト効率の強みを維持しています.
GoogleはTPUとNVIDIA GPUのインフラを両方に拡張している.Metaは2027年から数十億ドル規模のTPU採用契約を計画している.TPU v8は,Googleの競争力を NVIDIA グレイス・ブラックウェルとの対抗に確保する..
北京・チアンシン・ジテング・テクノロジー株式会社
サンディ・ヤン/グローバル戦略ディレクター
WhatsApp / ウェイチャット: +86 13426366826
メール: yangyd@qianxingdata.com
ウェブサイト:www.qianxingdata.com/www.storagesserver.com
ビジネス フォーカス
ICT製品配布/システム統合とサービス/インフラストラクチャソリューション
20年以上のIT販売経験を持つ私たちは 信頼性の高い製品とプロフェッショナルなサービスを提供するために グローバルブランドと提携しています
テクノロジーを使ってインテリジェントな世界を作ろう あなたの信頼できるICT製品サービスプロバイダー!
サンディ・ヤン/グローバル戦略ディレクター
WhatsApp / ウェイチャット: +86 13426366826
メール: yangyd@qianxingdata.com
ウェブサイト:www.qianxingdata.com/www.storagesserver.com
ビジネス フォーカス
ICT製品配布/システム統合とサービス/インフラストラクチャソリューション
20年以上のIT販売経験を持つ私たちは 信頼性の高い製品とプロフェッショナルなサービスを提供するために グローバルブランドと提携しています
テクノロジーを使ってインテリジェントな世界を作ろう あなたの信頼できるICT製品サービスプロバイダー!



