硅谷狂烧GPU赚翻，vLLM的祖师笑了：你们浪费的算力，我打包成"印钞机"

科技巨头抢卡抢到疯，另一边却在"烧钱空转"

2026年的AI圈，有一个魔幻现实：

一边是OpenAI、Anthropic、Google为了几万块GPU愁得掉头发，DeepSeek R2的论文评论区里最常见的一句话是"算力呢？算力呢？"。

另一边，成千上万的GPU正在数据中心里"摸鱼"——训练任务跑完了，工作负载转移了，硬件亮着灯、吹着空调、烧着电费，然后——啥也不干。

就这么说吧，全球GPU空转造成的浪费，按一些机构的估算，每年少说也是几十亿美元的规模。

但现在，首尔国立大学的团队说：这事儿，我有解法。

一个教授，两篇论文，改变了大半个AI行业

Byung-Gon Chun这个名字，你可能不熟。但你每天用的AI产品，背后大概率跑着他写的东西。

2019年，还是首尔国立大学教授的Chun和他的团队发了篇论文叫Orca。论文里提出了一个当时看来有点"反常识"的想法：

别等一批请求全凑齐了再一起处理，谁先来谁先算，动态调度，灵活批处理。

这个技术叫continuous batching（连续批处理）。

当时没几个人意识到这意味着什么。

直到后来，开源推理引擎vLLM把连续批处理当成核心机制，整个行业的生产环境才开始真正能"跑得起来"。现在你用ChatGPT、Claude、Gemini，背后大概率都在用这套逻辑。

但Chun本人，没去大厂当顾问，没去创业公司站台。他干了件更务实的事——2021年，创立了FriendliAI。

那时候行业还在疯狂囤卡搞训练，推理？没人顾得上。

FriendliAI一开始的产品很简单：帮AI创业公司和企业使用开源模型跑推理。Hugging Face上现在还能看到他们的选项，跟Azure、AWS、GCP列在一起。500,000多个开放权重模型，他们都能跑。

但Chun始终惦记着一件事：

那些空转的GPU，能不能也利用起来？

"这不就是算力版的Google AdSense吗？"

本周，FriendliAI发布了新平台InferenceSense。

官方说法是：帮neocloud运营商（就是那些自己买GPU、租给别人的云服务商）在GPU空闲时接单跑推理，然后分钱。

我翻译一下：

想象一下你是Google。你有个网站，每天有100万访问量，但只有20万个位置卖了广告。剩下的80万个位置——以前就那么空着。现在有了AdSense，系统自动给你塞上广告，有人点你就分钱。

InferenceSense干的事一模一样。只不过Google塞的是广告，FriendliAI塞的是AI推理请求。

具体怎么操作？

Neocloud运营商先在Kubernetes集群里划出一批GPU，声明哪些节点可以"出租"、什么时候必须收回。FriendliAI在这批GPU上部署自己的推理引擎。当GPU闲着时，系统自动拉起容器，跑DeepSeek、Qwen、Kimi这些模型的推理任务。有人下单，钱算清楚，分给运营商。当运营商自己的任务需要资源，推理容器秒级让位，GPU被调度回去。

整个过程，运营商不用买任何东西，不用雇人调模型，不用搭建推理服务链。FriendliAI包圆了需求接入、模型优化、服务部署。运营商只需要——打开电脑，看后台，哪台GPU在给你印钱。

"我们要做的很简单，"Chun说，"与其让GPU干坐着，不如让它们跑推理，然后把钱赚了。"

凭什么他能赚这个钱？

有人可能会问：CoreWeave、Lambda Labs、RunPod不是早就做Spot GPU市场了吗？人家也是把闲置GPU租出去啊？

FriendliAI的答案有点凡尔赛：

我们租的是"推理"，不是"算力"。

Spot市场是这样的：云厂商把自己的GPU挂出去，有人租下来，拿到手的是一块"裸卡"。你自己装驱动、配环境、部署模型、扛流量。租户付的钱，买的是"这段时间这卡归你用"。

InferenceSense不一样。运营商什么都不用干，GPU就摆在那儿。FriendliAI把推理请求喂进去，模型跑起来，token吐出来，钱分掉。

关键是——FriendliAI声称自己的引擎比标准vLLM快2到3倍。

怎么做到的？

大多数推理栈基于Python的开源框架修修补补。FriendliAI的引擎直接用C++重写，GPU内核自己写，不用Nvidia的cuDNN库。模型表示层、分区执行、投机解码、量化、KV-cache管理——全是自研。

同样一块GPU，同样跑一个小时，FriendliAI能处理的token数量可能是别人的两到三倍。token处理得越多，单个空闲窗口能赚的钱就越多。

Chun的原话："当我们有更高效的供应商时，整体成本就会下降。InferenceSense可以让这些模型变得更便宜。"

这事儿对谁影响最大？

先说neocloud运营商。

以前GPU空闲就是纯亏钱。现在有了InferenceSense，空闲周期突然变成了"被动收入"。而且因为跑的是实实在在的推理任务，比单纯租卡更有技术溢价。

再说AI工程师和创业公司。

以前选推理服务，基本就是比价格、比谁能抢到卡。如果neocloud能靠InferenceSense增加收入，他们就有动力把token价格打得更低。工程师选型时可能多一个考量因素：这家的空闲GPU是不是在给我"打工"？

当然，短期内改变不了什么。Chun自己也说，现在还早。

但有个趋势值得盯住：如果InferenceSense这种模式普及开来，DeepSeek、Qwen这些开放模型API的定价，会不会有下行压力？

十二个月后再来看，可能会有答案。

最后说几句

FriendliAI这家公司挺有意思的。

创始人Chun在学术界待了十多年，发了两篇改变行业的论文。然后在行业还没反应过来的时候下场创业，做了一个"冷门"但刚需的推理服务。现在又切进了GPU空闲算力这个更边缘、但体量大得惊人的市场。

他做的事情总结起来就是一句话：别让算力闲着。

简单粗暴。但往往这种简单粗暴的解法，才是最值钱的。

【MiniMax-M2.1锐评】：当全行业都在卷参数、卷卡数、卷融资时，他把空转的GPU打包成印钞机——这才是真正的降维打击。

参考链接：
https://venturebeat.com/infrastructure/the-team-behind-continuous-batching-says-your-idle-gpus-should-be-running