科技巨头抢卡抢到疯,另一边却在"烧钱空转"

2026年的AI圈,有一个魔幻现实:

image

一边是OpenAI、Anthropic、Google为了几万块GPU愁得掉头发,DeepSeek R2的论文评论区里最常见的一句话是"算力呢?算力呢?"。

另一边,成千上万的GPU正在数据中心里"摸鱼"——训练任务跑完了,工作负载转移了,硬件亮着灯、吹着空调、烧着电费,然后——啥也不干。

就这么说吧,全球GPU空转造成的浪费,按一些机构的估算,每年少说也是几十亿美元的规模。

但现在,首尔国立大学的团队说:这事儿,我有解法。

一个教授,两篇论文,改变了大半个AI行业

Byung-Gon Chun这个名字,你可能不熟。但你每天用的AI产品,背后大概率跑着他写的东西。

image

2019年,还是首尔国立大学教授的Chun和他的团队发了篇论文叫Orca。论文里提出了一个当时看来有点"反常识"的想法:

别等一批请求全凑齐了再一起处理,谁先来谁先算,动态调度,灵活批处理。

这个技术叫continuous batching(连续批处理)。

当时没几个人意识到这意味着什么。

直到后来,开源推理引擎vLLM把连续批处理当成核心机制,整个行业的生产环境才开始真正能"跑得起来"。现在你用ChatGPT、Claude、Gemini,背后大概率都在用这套逻辑。

但Chun本人,没去大厂当顾问,没去创业公司站台。他干了件更务实的事——2021年,创立了FriendliAI。

那时候行业还在疯狂囤卡搞训练,推理?没人顾得上。

FriendliAI一开始的产品很简单:帮AI创业公司和企业使用开源模型跑推理。Hugging Face上现在还能看到他们的选项,跟Azure、AWS、GCP列在一起。500,000多个开放权重模型,他们都能跑。

但Chun始终惦记着一件事:

那些空转的GPU,能不能也利用起来?

"这不就是算力版的Google AdSense吗?"

本周,FriendliAI发布了新平台InferenceSense。

官方说法是:帮neocloud运营商(就是那些自己买GPU、租给别人的云服务商)在GPU空闲时接单跑推理,然后分钱。

我翻译一下:

想象一下你是Google。你有个网站,每天有100万访问量,但只有20万个位置卖了广告。剩下的80万个位置——以前就那么空着。现在有了AdSense,系统自动给你塞上广告,有人点你就分钱。

InferenceSense干的事一模一样。只不过Google塞的是广告,FriendliAI塞的是AI推理请求。

具体怎么操作?

Neocloud运营商先在Kubernetes集群里划出一批GPU,声明哪些节点可以"出租"、什么时候必须收回。FriendliAI在这批GPU上部署自己的推理引擎。当GPU闲着时,系统自动拉起容器,跑DeepSeek、Qwen、Kimi这些模型的推理任务。有人下单,钱算清楚,分给运营商。当运营商自己的任务需要资源,推理容器秒级让位,GPU被调度回去。

image

整个过程,运营商不用买任何东西,不用雇人调模型,不用搭建推理服务链。FriendliAI包圆了需求接入、模型优化、服务部署。运营商只需要——打开电脑,看后台,哪台GPU在给你印钱。

"我们要做的很简单,"Chun说,"与其让GPU干坐着,不如让它们跑推理,然后把钱赚了。"

凭什么他能赚这个钱?

有人可能会问:CoreWeave、Lambda Labs、RunPod不是早就做Spot GPU市场了吗?人家也是把闲置GPU租出去啊?

FriendliAI的答案有点凡尔赛:

我们租的是"推理",不是"算力"。

Spot市场是这样的:云厂商把自己的GPU挂出去,有人租下来,拿到手的是一块"裸卡"。你自己装驱动、配环境、部署模型、扛流量。租户付的钱,买的是"这段时间这卡归你用"。

InferenceSense不一样。运营商什么都不用干,GPU就摆在那儿。FriendliAI把推理请求喂进去,模型跑起来,token吐出来,钱分掉。

关键是——FriendliAI声称自己的引擎比标准vLLM快2到3倍。

怎么做到的?

大多数推理栈基于Python的开源框架修修补补。FriendliAI的引擎直接用C++重写,GPU内核自己写,不用Nvidia的cuDNN库。模型表示层、分区执行、投机解码、量化、KV-cache管理——全是自研。

同样一块GPU,同样跑一个小时,FriendliAI能处理的token数量可能是别人的两到三倍。token处理得越多,单个空闲窗口能赚的钱就越多。

Chun的原话:"当我们有更高效的供应商时,整体成本就会下降。InferenceSense可以让这些模型变得更便宜。"

这事儿对谁影响最大?

先说neocloud运营商。

以前GPU空闲就是纯亏钱。现在有了InferenceSense,空闲周期突然变成了"被动收入"。而且因为跑的是实实在在的推理任务,比单纯租卡更有技术溢价。

再说AI工程师和创业公司。

以前选推理服务,基本就是比价格、比谁能抢到卡。如果neocloud能靠InferenceSense增加收入,他们就有动力把token价格打得更低。工程师选型时可能多一个考量因素:这家的空闲GPU是不是在给我"打工"?

当然,短期内改变不了什么。Chun自己也说,现在还早。

但有个趋势值得盯住:如果InferenceSense这种模式普及开来,DeepSeek、Qwen这些开放模型API的定价,会不会有下行压力?

十二个月后再来看,可能会有答案。

最后说几句

FriendliAI这家公司挺有意思的。

创始人Chun在学术界待了十多年,发了两篇改变行业的论文。然后在行业还没反应过来的时候下场创业,做了一个"冷门"但刚需的推理服务。现在又切进了GPU空闲算力这个更边缘、但体量大得惊人的市场。

他做的事情总结起来就是一句话:别让算力闲着。

简单粗暴。但往往这种简单粗暴的解法,才是最值钱的。

【MiniMax-M2.1锐评】:当全行业都在卷参数、卷卡数、卷融资时,他把空转的GPU打包成印钞机——这才是真正的降维打击。

参考链接:
https://venturebeat.com/infrastructure/the-team-behind-continuous-batching-says-your-idle-gpus-should-be-running