拒绝缴纳“英伟达税”：Google 第八代 TPU 如何重塑 AI 算力经济学

谷歌亮出底牌：百万芯片集群和不付Nvidia税的秘密

100万颗芯片同时轰鸣。

这不是科幻片场景，是谷歌昨晚在拉斯维加斯F1 Plaza私密聚会上扔出的技术炸弹。当OpenAI、Anthropic还在为下一轮Nvidia H200的报价单头疼时，谷歌已经亮出了第八代TPU——而且一次亮出两颗。

AI配图

更扎心的是，谷歌高管Amin Vahdat当着一群企业买家的面算了笔账：别人在为Nvidia的毛利率买单，谷歌不用。

这场发布会的火药味，从一开始就藏不住了。

说实话，整个故事最精彩的部分甚至不是芯片参数。

Vahdat透露了一个关键时间点：2024年。就在那一年，谷歌TPU团队做了一个在当时看来相当 contrarian（逆向）的决定——把路线图从"一年一颗芯片"改成"一年两颗"。

一颗专攻训练（8t），一颗专攻推理（8i）。

"我们意识到一年一颗芯片不够用了，"Vahdat说。问题是，当时整个行业还没开始疯狂谈论智能体（agents）和推理模型。大家还在卷训练算力，还在抢H100。

谷歌提前一年看到了分水岭。

当竞争对手们还在用同一套硬件既做训练又做推理，默默吃着效率损耗时，谷歌已经认定：训练要的是带宽，推理要的是延迟。这是两个完全不同的物理问题，凭什么用同一种硅片解决？

这种预判现在看起来像是开挂，但在2024年，这是个需要勇气的技术决策。

AI配图

来看看这两颗芯片的暴力美学。

TPU 8t是个纯粹的规模怪物。单pod算力达到121 FP4 EFlops，是上一代Ironwood的2.8倍。但真正让IT主管们坐直身子的是那个数字：100万颗芯片。

通过一个叫Virgo的新互联架构，8t集群可以把超过100万颗TPU连成一张网，跑同一个训练任务。这是什么概念？相当于把整个城市的计算力拧成一股绳，专门用来砸穿下一个 frontier model 的训练墙。

还有TPU Direct Storage——数据直接从存储层砸进HBM，跳过CPU中转。对于动辄跑几周的大模型训练，每省一小时的wall-clock time都是真金白银。

但8i才是那个更狡猾的杀手。

如果说8t是大力出奇迹，8i就是手术刀。FP8算力暴涨9.8倍，HBM容量翻6.8倍，pod规模从256颗芯片扩到1152颗。这些数字背后是一个叫Boardfly的新拓扑结构——专门为了砍网络直径（network diameter）。

Vahdat解释得很直白：以前的连接方式优先考虑带宽，适合吞吐大数据；但智能体要的是延迟，是响应回来的最短时间。

8i配了一个集体加速引擎和超大片上SRAM，号称能把实时LLM采样的延迟砍掉5倍。

翻译成人话：你的AI助手思考时，不会卡住了。

现在来聊点俗的：钱。

Vahdat在台上展示了谷歌的六层AI栈：能源、数据中心、硬件基础设施、软件基础设施、Gemini 3模型、顶层服务。他的核心论点很尖锐：分层设计必然导致每层都向最低公分母妥协，只有端到端设计才能榨干每一滴效率。

AI配图

这听起来像技术布道，但账本很现实。

OpenAI、Anthropic、xAI、Meta——这些名字背后的训练集群都严重依赖Nvidia。每买一颗H200或Blackwell，都要支付Nvidia数据中心业务那惊人的毛利率。业界私下叫它**"Nvidia税"**。

谷歌付的是晶圆厂、封装和工程成本。没有中间商赚差价。

对于正在评估2026-2027云预算的企业IT负责人，这意味着什么？当你用Google Cloud做微调或训练，用Vertex AI部署生产级智能体时，你租的不再是"勉强兼顾两种 workload"的通用加速器，而是为特定任务特化的硅片。

成本 per token 的经济学，开始倾斜了。

不过，先别急着下采购单。

Vahdat自己也承认，v8的general availability要等到"2026年下半年"。现在的发布更多是路线图信号，不是现货交付。而且谷歌的基准测试都是自家数据，独立第三方的数字还得等两个季度。

生态摩擦也真实存在。JAX/XLA和CUDA/PyTorch之间的移植成本，在签多年合同时还得多掂量掂量。

但真正的反转在结尾。

Vahdat抛了两个预测。第一个就挺反直觉：通用CPU将在AI系统里复兴——不是作为算力核心，而是作为智能体沙盒、虚拟机和工具执行的编排计算。

第二个更狠：专业化不会停止，"两颗芯片可能变成更多颗"。

他特意强调这是行业预测，不是谷歌路线图。但潜台词很清楚：当通用CPU性能每年只能爬几个百分点时，真正重要的workload会要求越来越特化的硅片。

frontier compute race（前沿计算竞赛）的规则已经改写。过去是比谁抢到的H100多，现在是比谁控制全栈。

而真正做到这一点的公司，Vahdat的名单短得可怜：两家。谷歌和Nvidia。

其他人？还在交税呢。

【锐评】：当全行业都在给Nvidia打工时，谷歌用垂直整合撕开了算力垄断的裂缝——这场百万芯片的军备竞赛，本质上成了"自建芯片"对"采购现成"的阶级战争。

参考链接：
https://venturebeat.com/orchestration/google-doesnt-pay-the-nvidia-tax-its-new-tpus-explain-why