十年了,Google终于亮出底牌

2026年4月,Google扔出一颗重磅炸弹。

第八代TPU,两枚芯片,TPU 8t和TPU 8i。

不是挤牙膏,不是小迭代。Google自己说的:这是"十年开发的结晶","重新定义AI基础设施的可能性"。

一枚专攻训练,一枚专攻推理。Google的意思很明确——AI代理时代来了,通用芯片不够用了,我要为这个新纪元定制两把趁手的刀。

有意思。

要知道,Google可是英伟达最大的客户之一。现在,它选择自己造刀。

图注:TPU 8t和TPU 8i芯片

AI代理时代,基础设施必须重来

先搞清楚一件事:为什么是两枚芯片?

Google在博客里写得很直白——"AI代理"和"传统AI",完全是两个物种。

传统AI模型:你给它一个prompt,它吐一个答案。完事。

AI代理不一样。它要推理、要规划、要执行、要学习,一套动作下来可能是几十步甚至上百步的循环。它不是单打独斗,而是"群殴"——一群专业代理组成团队,协同完成复杂任务。

这意味着什么?

基础设施要扛住两件事:超大规模训练,和超高频推理。

训练是"造轮子"的时候,需要极致算力;推理是"用轮子"的时候,需要极致响应。两者需求完全不同,放在一起只会互相拖累。

Google的选择是——分。

TPU 8t:训练专用,堆算力,堆带宽,堆规模。

TPU 8i:推理专用,压延迟,压功耗,压响应时间。

一句话概括:让专业的人干专业的事。

TPU 8t:一个超级计算机,顶9600块芯片

先看训练芯片TPU 8t。

数据很吓人:

单个超级计算集群(superd pod)可以扩展到9600块芯片,共享2PB高带宽内存。互连带宽是上一代的两倍。总算力——121 ExaFlops。

121 ExaFlops是什么概念?

作为对比,人类最强超级计算机Frontier的算力大约是1.2 ExaFlops。也就是说,Google这一个集群,顶100个Frontier。

但Google没打算只秀肌肉。它强调的是"好用"。

97%以上的"goodput"——这是Google自己造的词,意思是"有用的、产生价值的计算时间"。为了这个指标,Google塞进了一整套RAS(可靠性、可用性、可维护性)机制:实时监控数万块芯片、自动检测和绕过故障链路、光路交换实现故障无感切换……

说人话就是:训练大模型时,任何一块芯片挂了,系统不停机、不丢进度、无需人工介入。

在顶级训练场景下,1%的利用率差距可能就是几天的差距。Google把这件事做到了极致。

TPU 8i:把"等待"从字典里删掉

再看推理芯片TPU 8i。

这枚芯片的设计思路非常清晰——消除等待。

Google发现,AI代理最怕的不是算力不够,而是"等待室效应":处理器在等数据,数据在等处理器,大家大眼瞪小眼,效率上不去。

TPU 8i怎么破?

AI配图

第一,288GB高带宽内存 + 384MB片上SRAM,是上一代的三倍。模型运行时的工作数据,尽量全塞在芯片上,减少和外部内存的来回通信。

第二,定制ARM架构CPU(Axion)当主机,双倍密度,用非统一内存架构(NUMA)做隔离,优化整套系统的协同效率。

第三,MoE(混合专家)模型的互连带宽翻倍到19.2 Tb/s,新拓扑结构Boardfly把网络直径缩短50%以上——确保每个芯片之间的通信都像在一个局域网里一样快。

第四,片上集合加速引擎(CAE),把全局通信的延迟压到原来的五分之一。

结果是:性能每美元提升80%。同样的钱,能服务的用户量翻倍。

Google举了个例子:一堆专业代理在"群殴"一个复杂任务,TPU 8i能让它们配合得更紧密、响应得更迅速,不浪费一毫秒。

Google的野心:垂直整合到底

读完这篇博客,最深的感受是——Google在下一盘大棋。

从芯片到CPU(Axion),从互连到网络,从框架(JAX、MaxText)到推理引擎(SGLang、vLLM),再到数据中心——整条链路,Google全自己造。

评论区有个用户说得挺直接:

"做大AI,你基本只能从英伟达买硬件,或者从Google租硬件。但Google可以设计芯片、系统、数据中心……当规模大到一定程度,Google的体系永远比第三方更省成本。"

这就是垂直整合的力量。

Google甚至专门强调了能效:性能每瓦特提升两倍。不是芯片级,是系统级。从硅片到数据中心,全链路优化。

Own the stack。这才是Google真正的护城河。

一点观察:Gemini的"省钱"和TPU的"烧钱"

AI配图

评论区有个有趣的细节,值得单独拎出来说。

有用户对比了Gemini、ChatGPT和Claude的token消耗,发现Gemini用的token最少。

"Gemini的思考预算(thinking budget)明显更小。Google明明拥有最多的算力、最低的成本,为什么不像OpenAI那样疯狂堆推理计算?"

这是个值得玩味的问题。

一个可能的解释是:Google的算力要养活一整套生态——搜索、邮箱、地图、YouTube、Android……每个都是吞金兽。开源节流,精打细算,可能是无奈,也可能是策略。

现在,TPU 8t和TPU 8i来了。

Google亲手造的芯片,专门为推理优化。如果Gemini未来开始"放量",成本结构会完全不同。

AI配图

拭目以待。

结尾留个问题

Google说,这是为"AI代理时代"准备的基建。

但基建有了,代理在哪?

TPU 8t和TPU 8i是引擎,是高速公路。车什么时候来?

这个问题,可能比芯片本身更值得期待。


【锐评】:Google用十年证明了一件事——AI竞争到最后,拼的不是模型名字多好听,而是谁能把从芯片到电费的全链路成本压到最低。两枚芯片,一个野心。

参考链接:
https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/eighth-generation-tpu-agentic-era/