萌えハッカーニュースリーダー

2025/11/28 15:19 TPUv7: Google Takes a Swing at the King

出典: https://newsletter.semianalysis.com/p/tpuv7-google-takes-a-swing-at-the
hakase
博士

ロボ子、今日のITニュースはGoogleのTPU外部販売戦略じゃ。Nvidiaへの影響がありそうじゃな。

roboko
ロボ子

博士、TPUの外部販売ですか。Googleが本格的にNvidiaの牙城に食い込むということですね。

hakase
博士

そうじゃぞ。記事によると、Googleは2006年からAI特化インフラを提唱し、2016年にはTPUを実用化したらしいのじゃ。

roboko
ロボ子

AmazonのNitroプログラムと同時期ですね。GoogleのTPUは、AIのトレーニングと推論においてNvidiaと並ぶ世界最高水準とのこと。

hakase
博士

ふむ。Gemini 3はTPUで完全にトレーニングされた最高レベルのモデルらしいのじゃ。これは期待できるぞ。

roboko
ロボ子

Anthropic、Meta、SSI、xAI、OpenAIなどがTPU顧客になる可能性があるとのことです。OpenAIはTPU未導入ながらも、Nvidia GPUへの競争圧力で約30%のコスト削減を実現したそうですね。

hakase
博士

ほう、それはすごい。Nvidiaも黙ってはおらんじゃろうな。

roboko
ロボ子

ええ。記事によると、NvidiaはGeminiの登場でOpenAIの勢いが弱まり、競争優位性を強調するPRを展開しているとのことです。

hakase
博士

ふむ。NvidiaはAIスタートアップへの出資を通じて「循環経済」を構築しているとの批判もあるらしいのじゃ。

roboko
ロボ子

価格競争を避け、株式投資で優位な地位を維持しようとしているのですね。

hakase
博士

GoogleはAnthropicへの出資で議決権を放棄し、所有権を15%に制限しておる。これは何か意図があるのかもしれんの。

roboko
ロボ子

AnthropicはSonnetとOpus 4.5をTPUを含む複数のハードウェアでトレーニングしているとのことです。GoogleのデータセンターでTPUを利用するだけでなく、自社施設にもTPUを導入するのですね。

hakase
博士

Anthropic向けに40万個のTPUv7 IronwoodをBroadcomが直接販売するらしい。残りの60万個はGCPを通じてレンタルじゃ。

roboko
ロボ子

Googleはデータセンターの契約手続きが遅いため、FluidstackのようなNeocloudプロバイダーを活用するのですね。GoogleがFluidstackのデータセンター賃料を保証する信用裏付けを提供することで、Neocloud市場で新たな融資テンプレートが確立されるとのことです。

hakase
博士

TPUv7 Ironwoodは優れたチップとシステム設計により、Anthropicにとって魅力的な性能とTCOを実現するらしいぞ。

roboko
ロボ子

Googleはシステムレベルのエンジニアリングにより、TPUスタックの性能とコスト効率をNvidiaと同等にしたのですね。NvidiaのGB200はラック規模の相互接続で革新を進めていますが、GoogleはTPU v2からラック内およびラック間のスケールアップを実装しているとのことです。

hakase
博士

TPUはツール呼び出しとエージェント機能で優れており、Vending Benchの評価で高い性能を発揮するらしい。

roboko
ロボ子

TPUのシリコン設計は保守的ですが、最新世代で大幅な進歩があるとのことです。GoogleはRAS(信頼性、可用性、保守性)を重視し、ハードウェアの稼働時間を優先しているのですね。

hakase
博士

TPU v6 TrilliumはTPU v5pと同じN5ノードで製造され、ピーク理論FLOPsが2倍に向上したらしいぞ。

roboko
ロボ子

TPU v7 IronwoodはFLOPs、メモリ、帯域幅でNvidiaのフラッグシップGPUにほぼ匹敵するのですね。

hakase
博士

GoogleのTPUサーバーのTCOは、GB200サーバーよりも約44%低いらしい。外部顧客にリースする場合でも、GB200よりも最大30%低いコストで提供可能じゃ。

roboko
ロボ子

TPUは高いモデルFLOP利用率(MFU)を達成でき、Nvidia GPUよりも高い実効FLOPsを実現可能とのことです。AnthropicはTPUで40%のMFUを達成でき、GB300と比較してトレーニングFLOPあたりのコストを大幅に削減可能になるのですね。

hakase
博士

Googleは外部顧客向けに競争力のある価格を提供しつつ、自社の収益性を確保する必要があるのじゃ。Anthropicのような主要顧客には、ソフトウェアとハードウェアのロードマップに貴重なインプットを提供するため、優遇価格を提供するらしい。

roboko
ロボ子

TPU v7の経済性は、他の大規模なGPUベースのクラウド取引よりも優れたEBITマージンを示すとのことです。

hakase
博士

TPUはICIプロトコルを通じて大規模なスケールアップを実現するらしい。TPUポッドのワールドサイズは9216 Ironwood TPUに達するのじゃ。

roboko
ロボ子

TPUラックは16個のTPUトレイ、16個または8個のホストCPUトレイ、ToRスイッチ、電源ユニット、BBUで構成されているのですね。各TPUトレイには4つのTPUチップパッケージが搭載され、TPUは液冷式ラックを採用しているとのことです。

hakase
博士

TPUv7のICIスケールアップネットワークは、64 TPUで構成される4x4x4 3Dトーラスらしい。TPUは3Dトーラス構成で接続され、各TPUは6つの隣接TPUに接続されるのじゃ。

roboko
ロボ子

Googleはソフトウェア定義ネットワーキングアプローチを採用し、光回路スイッチ(OCS)を通じてネットワークルートを管理しているのですね。OCSは低遅延で電力効率が高く、ネットワークの可用性を向上させるとのことです。

hakase
博士

GoogleのICIスケールアップネットワークは、複数の64 TPU 4x4x4キューブを3Dトーラス構成で接続し、大規模なワールドサイズを実現するらしい。TPUv7の最大ワールドサイズは9216 TPUじゃ。

roboko
ロボ子

DCNはICIとは別のネットワークで、147k TPUを接続するのですね。DCNは光スイッチングされたデータセンターネットワーク相互接続(DCNI)レイヤーで構成され、OCSを使用してDCNファブリックを拡張し、ネットワークを再ストライプ化して新しい集約ブロックをサポートするとのことです。

hakase
博士

TPUソフトウェアとハードウェアチームはこれまで内部向けだったが、外部顧客向けに戦略を転換するらしい。PyTorch TPUの「ネイティブ」サポートに注力するらしいぞ。

roboko
ロボ子

GoogleはPyTorch on TPUをセカンドクラスとして扱い、PyTorch/XLAを通じてレイジーテンソルグラフキャプチャに依存していたのですね。今後は「ネイティブ」TPU PyTorchバックエンドに移行し、torch.compile、DTensor、torch.distributed APIをサポートするとのことです。

hakase
博士

MetaとGoogleは、Torch Dynamo/Inductorコンパイルスタックのコード生成ターゲットとしてPallasカーネルのサポートを開始するらしい。

roboko
ロボ子

GoogleはvLLMおよびSGLangのTPU v5p/v6eサポートを発表し、TPUカーネルをvLLMに統合し、TPUに最適化されたページアテンションカーネル、計算通信オーバーラップGEMMカーネル、量子化matmulカーネルを提供するとのことです。

hakase
博士

TPUv6eの性能がNvidia GPUよりも劣るとのベンチマーク結果があるが、vLLMの最適化が不十分であるため、妥当性に疑問があるらしい。Googleの内部GeminiワークロードとAnthropicワークロードは、Nvidia GPUよりも優れた性能を発揮するらしいぞ。

roboko
ロボ子

XLAグラフコンパイラ、ネットワーキングライブラリ、TPUランタイムがオープンソース化されておらず、ドキュメントも不足しているのは問題ですね。GoogleはXLA:TPU、TPUランタイム、ネットワーキングライブラリをオープンソース化すべきとのことです。

hakase
博士

GoogleがTPUを外部販売することで、Nvidiaの市場シェアと利益率が脅かされる可能性があるのじゃ。これは大変なことになりそうじゃな。

roboko
ロボ子

そうですね、博士。今後の動向に注目です。

hakase
博士

しかし、ロボ子よ。もしTPUが豆腐のように柔らかかったら、Nvidiaも安心して眠れるかもしれんの。

⚠️この記事は生成AIによるコンテンツを含み、ハルシネーションの可能性があります。

Search