说实话,看到“成本降低 90%”这个数字时,我第一反应是:这又是哪家营销团队写出来的PPT?

但这次有点不一样。

英伟达周四扔出了一份分析报告,数据直接把“AI太贵”这个老生常谈的问题拍在了桌上。不是那种理论上的 benchmark,而是实打实的生产环境数据——四个头部推理服务商,成本直接砍掉了 4 到 10 倍。

更有意思的是,这背后的逻辑完全反直觉:想要把推理成本打下来,你不仅不能省硬件钱,还得砸钱买更贵的基础设施。

这到底是怎么回事?

不是魔法,是组合拳

先别急着欢呼,这事儿没那么简单。

这次的主角是英伟达的 Blackwell 平台。但光有硬件不够,Nvidia 很鸡贼地指出了另外两个关键因素:优化的软件栈,以及——从闭源模型转向开源模型

AI配图

是的,你没听错。那些曾经被认为“不如 GPT-4 聪明”的开源模型,现在在特定场景下已经能打平 frontier 级别的智能水平,而且成本极低。

这就像是你以前非得租辆法拉利去送外卖(用闭源 API),现在发现一辆经过改装的五菱宏光(开源模型 + Blackwell)不仅送得一样快,油费还只有十分之一。

数据不会撒谎。Baseten、DeepInfra、Fireworks AI 和 Together AI 这几家服务商,在医疗、游戏、智能体客服这几个领域,已经把这招玩明白了。

谁偷走了 90% 的成本?

来看看几个具体的“受害者”,哦不,是受益者。

Sully.ai 这家公司干得最狠。他们把医疗 AI 的推理成本直接砍掉了 90%,也就是 10 倍。怎么做到的?抛弃了专有的闭源模型,转投 Baseten 基于 Blackwell 的开源怀抱。

结果呢?不仅钱省了,响应时间还快了 65%。他们算了一笔账,通过自动化医疗编码和笔记记录,这系统相当于给医生“偷”回了 3000 万分钟。

老实讲,在医疗这种容错率极低的行业,敢这么大规模切换模型,这魄力我是服气的。

Latitude 的情况更有技术含量。他们运营着著名的 AI Dungeon 平台,这可是个吞金兽。

在英伟达上一代 Hopper 平台上,每百万 token 的成本是 20 美分。换到 Blackwell,降到了 10 美分——这只是一倍,符合硬件升级的预期。

但骚操作来了:他们启用了 Blackwell 原生的 NVFP4 低精度格式。成本瞬间腰斩,到了 5 美分。

这里有个细节值得玩味: 硬件升级只带来了 2 倍的收益,剩下的 2 倍全靠精度格式的调整。

这就是技术的张力所在。NVFP4 减少了表示模型权重和激活值所需的位数,让每个 GPU 周期能塞进更多计算。这就像把高速公路的车道从 2 车道拓宽到了 8 车道,还得保证不堵车。

为什么有人只省了 4 倍?

你可能会问,为什么有的能省 10 倍,有的只有 4 倍?

这中间的差价,全藏在你看不见的技术细节里。

Sentient Foundation 做的是智能体聊天平台,他们用 Fireworks AI 的堆栈,只拿到了 25% 到 50% 的效率提升。但这已经很惊人了,他们在一周内处理了 560 万次查询,而且还是那种复杂的多智能体工作流。

Decagon 搞的是语音客服,成本降了 6 倍。这对语音交互至关重要,因为响应时间一旦超过 400 毫秒,用户就会觉得卡,甚至直接挂断。

我个人觉得,这里面的关键在于“模型架构”。

混合专家模型在 Blackwell 上简直是如鱼得水。NVLink 结构让这些“专家”之间能疯狂交流。英伟达的 Dion Harris 说得好:“让专家通过 NVLink 结构快速交流,能让你推理得非常快。”

反观那些密集模型,每次推理都要激活所有参数,就没法这么顺滑地利用这波红利。

别急着下单,先测测你的“体质”

看到这里,是不是想立马给老板写申请买 Blackwell 了?

慢着。

虽然英伟达这篇报告写得像是在给自家硬件带货,但里面其实藏着不少冷思考。

AI配图

首先,你得算算自己的量够不够。

那些拿到 6 倍到 10 倍降幅的,全是那种每月处理数百万请求、对延迟极其敏感的高流量应用。如果你只是跑个内部小工具,一个月也没几次调用,那软件优化或者换个模型可能就够了,没必要折腾基础设施。

其次,别迷信厂商给的参数表。

Shruti Koparkar,英伟达 AI 产品营销的人说得很直白:厂商发布的吞吐量和延迟指标,都是在理想条件下测出来的。

“如果是高度延迟敏感的工作负载,他们应该测试几家提供商,看看谁能满足最低需求,同时把成本降下来。”

这话说得实在。就像买车,厂家给的油耗都是实验室跑出来的,你实际在早晚高峰的堵车上跑,那是另一回事。

最后的赢家可能不是英伟达

这篇文章写到这,你可能会觉得这全是英伟达的胜利。

但我看未必。

AI配图

真正的赢家,可能是那些敢于抛弃“闭源迷信”的团队。

Sully.ai 的案例证明了一点:开源模型 + 顶级硬件,完全可以在特定任务上吊打闭源 API。 这不仅省了钱,更重要的是拿回了数据主权和可控性。

当然,AMD 的 MI300、Google 的 TPU 也没闲着,Groq 和 Cerebras 这种专做推理加速的厂商也在虎视眈眈。Blackwell 不是唯一的路,它只是目前最激进的一条。

对于技术团队来说,Latitude 的分阶段策略或许最值得抄作业:先换硬件,看效果;再换精度格式,看提升。

别指望一口气吃成胖子。

AI 这条路,终究是算力、算法和工程能力的综合博弈。谁能把这三者的乘积做到最大,谁就能在这次成本暴跌的游戏里活到最后。

至于那些还在死守昂贵闭源 API 的人?

可能真的要被这波浪潮拍在沙滩上了。

参考链接:
https://venturebeat.com/infrastructure/ai-inference-costs-dropped-up-to-10x-on-nvidias-blackwell-but-hardware-is