产品发布 @Google 2026-04-22

Google：发布第八代 TPU，训练/推理分家

Google 推出第八代 TPU，采用双芯片方案：训练用 TPU 8t 单 pod 算力达上代 Ironwood 近 3 倍；推理用 TPU 8i 单 pod 可连接 1152 颗芯片，低延迟并发运行数百万 Agent。

AI 资讯解读

核心要点

2026 年 4 月 22 日，Google 正式发布第八代 TPU 芯片系列，首次采用训练与推理全分离的架构策略。TPU 8t 定位于大规模训练场景，单 pod 算力为上代 Ironwood 的近三倍；TPU 8i 则专攻推理场景，单 pod 最大支持 1152 颗芯片互连，可低延迟并发调度数百万个 Agent 任务。这一发布标志着 Google 在 AI 基础设施上从"通用算力"向"场景专用"深度转型，也意味着 TPU 路线图正式进入以工作负载为导向的分化时代。

原文 + 中文翻译

资讯来源为 @Google 官方账号推文（X 平台），目前仅有摘要级信息，官方完整公告尚未发布。以下引用摘要核心描述：

原文： "Google launches 8th generation TPU with a dual-chip architecture — TPU 8t for training delivering nearly 3x the compute of Ironwood per pod, and TPU 8i for inference with up to 1,152 chips per pod supporting millions of concurrent agents at low latency."

翻译： "Google 发布第八代 TPU，采用双芯片架构——TPU 8t 用于训练，单 pod 算力达 Ironwood 的近 3 倍；TPU 8i 用于推理，单 pod 可容纳最多 1,152 颗芯片，以低延迟支持数百万并发 Agent 运行。"

深度解读

1. 训练/推理分家：Google 基础设施战略的根本性转向

过去几代 TPU（TPU v5、Ironwood）采用相对统一的架构设计，试图用同一套芯片覆盖训练与推理需求。然而，大模型训练的并行计算特征（高吞吐、大矩阵乘法）与推理的特征（高并发、低延迟、自回归生成）存在根本差异，强制融合会导致两边性能均有折损。Google 此次将 TPU 8t 与 TPU 8i 完全拆分为独立产品线，意味着内部已认定：大规模训练和实时推理已各自成为独立的大规模商业场景，专用硬件的性价比远超通用设计。这是继 NVIDIA 推出 H100（训练）/H200（推理优化）之后的又一次重要印证，但 Google 作为自研芯片厂商走得更为彻底。

2. TPU 8t 对训练市场的冲击：能否追回算力差距？

Google 宣称 TPU 8t 单 pod 算力为 Ironwood 的近 3 倍，而 Ironwood（TPU v7）本身就拥有 4,096 芯片互连规模的超大 pod。如果 3 倍的提升是真实且可持续的，那么 TPU 8t 将具备与 NVIDIA H200 / Blackwell 架构正面竞争训练市场份额的潜力。然而，关键变量在于：3 倍是线性扩展（单一芯片性能）还是系统级提升（互连带宽 / 内存带宽协同优化）？如果是前者，Google 在芯片微架构上实现了突破；如果是后者，则说明 Google 在 Pod 间通信与并行策略上取得了实质性进展。考虑到 Google 过往 TPU 更迭的节奏（v5→v6→v7 均为增量提升），3 倍的跳级幅度不同寻常，值得重点跟踪官方白皮书的详细规格披露。

3. TPU 8i 的 Agent 推理战略：大规模并发是核心战场

TPU 8i 单 pod 连接 1,152 颗芯片、并发调度数百万 Agent 的描述，指向的是 Google 对未来 AI 应用形态的核心判断：Agent（智能体）将取代单一 Prompt 成为 AI 计算的主要负载。这意味着推理基础设施的核心矛盾从"快（单次请求延迟）"升级为"多（高并发吞吐）+ 快（单请求延迟）"。1,152 芯片的单 pod 规模在推理场景中非常激进，对比 NVIDIA 的 GB200 NVL72（72 GPU 一体机方案），Google 在芯片互连密度上走得更快。若这一架构在实测中能兑现低延迟承诺，Google Cloud 的 Vertex AI Agent Builder 和 Gemini Agent Services 将获得显著的成本优势。

4. 对 Google Cloud 商业化的影响

TPU 分家策略的另一层含义是定价模型的精细化。训练集群（TPU 8t）和推理集群（TPU 8i）可以独立定价、独立销售，帮助 Google Cloud 更精准地对标客户需求，避免大客户因"买了训练芯片却为推理付费"而产生的成本摩擦。这对于正面对抗 AWS Trainium / Inferentia 和 Microsoft Azure AI 的 Google Cloud 而言，是强化差异化竞争力的关键一步。

值得关注

TPU 8t 的官方白皮书披露：芯片制程（5nm 还是 3nm？）、单芯片 BF16 算力、Pod 内芯片互连拓扑（HBM 带宽、ICI 带宽）是判断 3 倍算力真实来源的核心指标，需关注 Google 在 I/O 官方页面或 Next'26 大会上的详细规格表。
TPU 8i 的延迟数据：Google 提到"低延迟"，但具体数值（P99 延迟、首次 token 时间）尚未公开，与 NVIDIA GB200 NVL72 在相同并发规模下的对比将是关键参考。
1,152 芯片单 pod 的散热与功耗挑战：如此高密度互连对数据中心基础设施提出极高要求，Google 是否同步更新了 TPU Pod 的机架散热方案（如液冷）值得关注。
TPU 8t 是否向 Google Cloud 外部客户开放：过去 TPU 对外租赁有过配额限制，本次是否改善供应情况将影响 AI 初创公司的基础设施选型。
与 Gemini 模型家族的对齐时间：TPU 8t 发布后，Google 内部的 Gemini Ultra 下一代版本何时迁移至新硬件训练，外部客户何时能通过 Vertex AI 访问 TPU 8t，将是判断商业化节奏的核心信号。

信源行：
原文链接：https://x.com/Google/status/2046993420841865508
背景报道：Google Cloud 官方 TPU 产品页面（实时更新中）；The Verge — Google 发布第八代 TPU 官方报道（待更新）；Wired — Google 新型 TPU 能否挑战 NVIDIA 训练霸权（待更新）

本解读由 AI 自动生成，仅供参考。请以原文为准。