英伟达刚刚甩出一份“反直觉”账单：为了省钱，你得先花大钱

说实话，看到“成本降低 90%”这个数字时，我第一反应是：这又是哪家营销团队写出来的PPT？

但这次有点不一样。

英伟达周四扔出了一份分析报告，数据直接把“AI太贵”这个老生常谈的问题拍在了桌上。不是那种理论上的 benchmark，而是实打实的生产环境数据——四个头部推理服务商，成本直接砍掉了 4 到 10 倍。

更有意思的是，这背后的逻辑完全反直觉：想要把推理成本打下来，你不仅不能省硬件钱，还得砸钱买更贵的基础设施。

这到底是怎么回事？

不是魔法，是组合拳

先别急着欢呼，这事儿没那么简单。

这次的主角是英伟达的 Blackwell 平台。但光有硬件不够，Nvidia 很鸡贼地指出了另外两个关键因素：优化的软件栈，以及——从闭源模型转向开源模型。

AI配图

是的，你没听错。那些曾经被认为“不如 GPT-4 聪明”的开源模型，现在在特定场景下已经能打平 frontier 级别的智能水平，而且成本极低。

这就像是你以前非得租辆法拉利去送外卖（用闭源 API），现在发现一辆经过改装的五菱宏光（开源模型 + Blackwell）不仅送得一样快，油费还只有十分之一。

数据不会撒谎。Baseten、DeepInfra、Fireworks AI 和 Together AI 这几家服务商，在医疗、游戏、智能体客服这几个领域，已经把这招玩明白了。

谁偷走了 90% 的成本？

来看看几个具体的“受害者”，哦不，是受益者。

Sully.ai 这家公司干得最狠。他们把医疗 AI 的推理成本直接砍掉了 90%，也就是 10 倍。怎么做到的？抛弃了专有的闭源模型，转投 Baseten 基于 Blackwell 的开源怀抱。

结果呢？不仅钱省了，响应时间还快了 65%。他们算了一笔账，通过自动化医疗编码和笔记记录，这系统相当于给医生“偷”回了 3000 万分钟。

老实讲，在医疗这种容错率极低的行业，敢这么大规模切换模型，这魄力我是服气的。

Latitude 的情况更有技术含量。他们运营着著名的 AI Dungeon 平台，这可是个吞金兽。

在英伟达上一代 Hopper 平台上，每百万 token 的成本是 20 美分。换到 Blackwell，降到了 10 美分——这只是一倍，符合硬件升级的预期。

但骚操作来了：他们启用了 Blackwell 原生的 NVFP4 低精度格式。成本瞬间腰斩，到了 5 美分。

这里有个细节值得玩味： 硬件升级只带来了 2 倍的收益，剩下的 2 倍全靠精度格式的调整。

这就是技术的张力所在。NVFP4 减少了表示模型权重和激活值所需的位数，让每个 GPU 周期能塞进更多计算。这就像把高速公路的车道从 2 车道拓宽到了 8 车道，还得保证不堵车。

为什么有人只省了 4 倍？

你可能会问，为什么有的能省 10 倍，有的只有 4 倍？

这中间的差价，全藏在你看不见的技术细节里。

Sentient Foundation 做的是智能体聊天平台，他们用 Fireworks AI 的堆栈，只拿到了 25% 到 50% 的效率提升。但这已经很惊人了，他们在一周内处理了 560 万次查询，而且还是那种复杂的多智能体工作流。

Decagon 搞的是语音客服，成本降了 6 倍。这对语音交互至关重要，因为响应时间一旦超过 400 毫秒，用户就会觉得卡，甚至直接挂断。

我个人觉得，这里面的关键在于“模型架构”。

混合专家模型在 Blackwell 上简直是如鱼得水。NVLink 结构让这些“专家”之间能疯狂交流。英伟达的 Dion Harris 说得好：“让专家通过 NVLink 结构快速交流，能让你推理得非常快。”

反观那些密集模型，每次推理都要激活所有参数，就没法这么顺滑地利用这波红利。

别急着下单，先测测你的“体质”

看到这里，是不是想立马给老板写申请买 Blackwell 了？

慢着。

虽然英伟达这篇报告写得像是在给自家硬件带货，但里面其实藏着不少冷思考。

AI配图

首先，你得算算自己的量够不够。

那些拿到 6 倍到 10 倍降幅的，全是那种每月处理数百万请求、对延迟极其敏感的高流量应用。如果你只是跑个内部小工具，一个月也没几次调用，那软件优化或者换个模型可能就够了，没必要折腾基础设施。

其次，别迷信厂商给的参数表。

Shruti Koparkar，英伟达 AI 产品营销的人说得很直白：厂商发布的吞吐量和延迟指标，都是在理想条件下测出来的。

“如果是高度延迟敏感的工作负载，他们应该测试几家提供商，看看谁能满足最低需求，同时把成本降下来。”

这话说得实在。就像买车，厂家给的油耗都是实验室跑出来的，你实际在早晚高峰的堵车上跑，那是另一回事。

最后的赢家可能不是英伟达

这篇文章写到这，你可能会觉得这全是英伟达的胜利。

但我看未必。

AI配图

真正的赢家，可能是那些敢于抛弃“闭源迷信”的团队。

Sully.ai 的案例证明了一点：开源模型 + 顶级硬件，完全可以在特定任务上吊打闭源 API。 这不仅省了钱，更重要的是拿回了数据主权和可控性。

当然，AMD 的 MI300、Google 的 TPU 也没闲着，Groq 和 Cerebras 这种专做推理加速的厂商也在虎视眈眈。Blackwell 不是唯一的路，它只是目前最激进的一条。

对于技术团队来说，Latitude 的分阶段策略或许最值得抄作业：先换硬件，看效果；再换精度格式，看提升。

别指望一口气吃成胖子。

AI 这条路，终究是算力、算法和工程能力的综合博弈。谁能把这三者的乘积做到最大，谁就能在这次成本暴跌的游戏里活到最后。

至于那些还在死守昂贵闭源 API 的人？

可能真的要被这波浪潮拍在沙滩上了。

参考链接：
https://venturebeat.com/infrastructure/ai-inference-costs-dropped-up-to-10x-on-nvidias-blackwell-but-hardware-is