Google亮出"十年磨一剑"的大招，两枚芯片直指英伟达腹地

十年了，Google终于亮出底牌

2026年4月，Google扔出一颗重磅炸弹。

第八代TPU，两枚芯片，TPU 8t和TPU 8i。

不是挤牙膏，不是小迭代。Google自己说的：这是"十年开发的结晶"，"重新定义AI基础设施的可能性"。

一枚专攻训练，一枚专攻推理。Google的意思很明确——AI代理时代来了，通用芯片不够用了，我要为这个新纪元定制两把趁手的刀。

有意思。

要知道，Google可是英伟达最大的客户之一。现在，它选择自己造刀。

图注：TPU 8t和TPU 8i芯片

AI代理时代，基础设施必须重来

先搞清楚一件事：为什么是两枚芯片？

Google在博客里写得很直白——"AI代理"和"传统AI"，完全是两个物种。

传统AI模型：你给它一个prompt，它吐一个答案。完事。

AI代理不一样。它要推理、要规划、要执行、要学习，一套动作下来可能是几十步甚至上百步的循环。它不是单打独斗，而是"群殴"——一群专业代理组成团队，协同完成复杂任务。

这意味着什么？

基础设施要扛住两件事：超大规模训练，和超高频推理。

训练是"造轮子"的时候，需要极致算力；推理是"用轮子"的时候，需要极致响应。两者需求完全不同，放在一起只会互相拖累。

Google的选择是——分。

TPU 8t：训练专用，堆算力，堆带宽，堆规模。

TPU 8i：推理专用，压延迟，压功耗，压响应时间。

一句话概括：让专业的人干专业的事。

TPU 8t：一个超级计算机，顶9600块芯片

先看训练芯片TPU 8t。

数据很吓人：

单个超级计算集群（superd pod）可以扩展到9600块芯片，共享2PB高带宽内存。互连带宽是上一代的两倍。总算力——121 ExaFlops。

121 ExaFlops是什么概念？

作为对比，人类最强超级计算机Frontier的算力大约是1.2 ExaFlops。也就是说，Google这一个集群，顶100个Frontier。

但Google没打算只秀肌肉。它强调的是"好用"。

97%以上的"goodput"——这是Google自己造的词，意思是"有用的、产生价值的计算时间"。为了这个指标，Google塞进了一整套RAS（可靠性、可用性、可维护性）机制：实时监控数万块芯片、自动检测和绕过故障链路、光路交换实现故障无感切换……

说人话就是：训练大模型时，任何一块芯片挂了，系统不停机、不丢进度、无需人工介入。

在顶级训练场景下，1%的利用率差距可能就是几天的差距。Google把这件事做到了极致。

TPU 8i：把"等待"从字典里删掉

再看推理芯片TPU 8i。

这枚芯片的设计思路非常清晰——消除等待。

Google发现，AI代理最怕的不是算力不够，而是"等待室效应"：处理器在等数据，数据在等处理器，大家大眼瞪小眼，效率上不去。

TPU 8i怎么破？

AI配图

第一，288GB高带宽内存 + 384MB片上SRAM，是上一代的三倍。模型运行时的工作数据，尽量全塞在芯片上，减少和外部内存的来回通信。

第二，定制ARM架构CPU（Axion）当主机，双倍密度，用非统一内存架构（NUMA）做隔离，优化整套系统的协同效率。

第三，MoE（混合专家）模型的互连带宽翻倍到19.2 Tb/s，新拓扑结构Boardfly把网络直径缩短50%以上——确保每个芯片之间的通信都像在一个局域网里一样快。

第四，片上集合加速引擎（CAE），把全局通信的延迟压到原来的五分之一。

结果是：性能每美元提升80%。同样的钱，能服务的用户量翻倍。

Google举了个例子：一堆专业代理在"群殴"一个复杂任务，TPU 8i能让它们配合得更紧密、响应得更迅速，不浪费一毫秒。

Google的野心：垂直整合到底

读完这篇博客，最深的感受是——Google在下一盘大棋。

从芯片到CPU（Axion），从互连到网络，从框架（JAX、MaxText）到推理引擎（SGLang、vLLM），再到数据中心——整条链路，Google全自己造。

评论区有个用户说得挺直接：

"做大AI，你基本只能从英伟达买硬件，或者从Google租硬件。但Google可以设计芯片、系统、数据中心……当规模大到一定程度，Google的体系永远比第三方更省成本。"

这就是垂直整合的力量。

Google甚至专门强调了能效：性能每瓦特提升两倍。不是芯片级，是系统级。从硅片到数据中心，全链路优化。

Own the stack。这才是Google真正的护城河。

一点观察：Gemini的"省钱"和TPU的"烧钱"

AI配图

评论区有个有趣的细节，值得单独拎出来说。

有用户对比了Gemini、ChatGPT和Claude的token消耗，发现Gemini用的token最少。

"Gemini的思考预算（thinking budget）明显更小。Google明明拥有最多的算力、最低的成本，为什么不像OpenAI那样疯狂堆推理计算？"

这是个值得玩味的问题。

一个可能的解释是：Google的算力要养活一整套生态——搜索、邮箱、地图、YouTube、Android……每个都是吞金兽。开源节流，精打细算，可能是无奈，也可能是策略。

现在，TPU 8t和TPU 8i来了。

Google亲手造的芯片，专门为推理优化。如果Gemini未来开始"放量"，成本结构会完全不同。

AI配图

拭目以待。

结尾留个问题

Google说，这是为"AI代理时代"准备的基建。

但基建有了，代理在哪？

TPU 8t和TPU 8i是引擎，是高速公路。车什么时候来？

这个问题，可能比芯片本身更值得期待。

【锐评】：Google用十年证明了一件事——AI竞争到最后，拼的不是模型名字多好听，而是谁能把从芯片到电费的全链路成本压到最低。两枚芯片，一个野心。

参考链接：
https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/eighth-generation-tpu-agentic-era/