这是一份发给全球数据中心的“最后通牒”
一家名为Furiosa AI的公司,刚刚扔出了一颗“能效炸弹”:其新款AI服务器,在同等功耗下,推理性能据称能达到英伟达H100的3.5倍。
数字很吓人,但背后的故事更残酷。它瞄准的不是纸面算力的巅峰,而是绝大多数企业数据中心那道无法跨越的物理鸿沟——电力和冷却的极限。
当英伟达的GPU服务器动辄要求10千瓦以上的功耗和昂贵的液冷系统时,Furiosa说:用我的,3千瓦,风冷就行。
这场起义,能成功吗?
数据中心,撞上了物理学的墙
全球数据中心的电力需求,2024年已达60吉瓦。预计到2030年,这个数字还要翻三倍。
但一个冰冷的事实是:超过80%的现有数据中心是风冷的,每个机架的功率上限通常在8千瓦或更低。
“英伟达当前的架构遇到了瓶颈,就像英特尔历史上多次经历的那样——他们当前一代产品的电力和冷却要求,正在迫使人们建造全新架构的数据中心。”
这条热门评论一针见血。疯狂堆砌GPU算力,带来的是一连串连锁反应:天价的GPU、为它量身定制的新数据中心、配套的发电厂、甚至关乎土地和水权的政治游说。经济学模型,正在被物理学重塑。
推理,成了第一个“成本绞肉机”。
训练可以不计代价,但7x24小时持续运行的推理服务,每瓦特性能都直接挂钩真金白银。当企业看着电费账单和机房改造预算发愁时,效率就成了最硬的通货。
Furiosa的NXT RNGD服务器,就卡在这个节点上出现了。
一台能溜进旧机房的“特洛伊木马”
它的核心卖点简单粗暴:别折腾你的机房了,我能直接塞进去。
单系统功耗3千瓦——这意味着它可以轻松入驻绝大多数现有风冷机架,而无需进行昂贵的液冷改造或电力扩容。
技术规格看起来很能打:
最多8颗自研RNGD加速器,提供4 PFLOPS的FP8算力,搭配384GB的HBM3内存。软件栈预装了自家的SDK和与大模型服务框架vLLM兼容的“Furiosa LLM运行时”,声称开箱即用。
“NXT RNGD服务器提供了一条实用的前进道路。它允许组织在其现有设施内部署先进AI,而无需令人望而却步的能源成本或破坏性的改造。”
Furiosa描绘的图景是:企业不用再为AI专门建造“神庙”,而是在现有的“民居”里,悄悄部署高效的生产力工具。
但这套说辞,需要重量级的背书。
第一个大客户:LG的“投票”
Furiosa找到了一个强有力的证明:LG AI研究所。
今年7月,LG宣布在其EXAONE模型上采用RNGD进行推理计算。
根据公布的数据,在一台配备4块RNGD卡的服务器上,运行EXAONE 3.5 320亿参数模型,在4K上下文长度下生成了每秒60个token,32K长度下为每秒50个token。
FuriosaAI CTO Hanjoon Kim在OpenAI首尔发布会现场
这不仅仅是一个测试数据。双方正在合作,向电子、金融、电信、生物技术等关键领域的企业供应搭载EXAONE的NXT RNGD服务器。
一个消费电子巨头,用自己的核心AI模型,为一家挑战者的硬件站台。这比任何广告都更有分量。
LG的选择,像一枚楔子,钉进了由英伟达统治的AI基础设施版图。
它证明了一条路径的可行性:对于有私有化部署、数据安全敏感或成本控制需求的大企业,一个高能效、即插即用的专用方案,具有致命的吸引力。
质疑声浪:效率赢了,然后呢?
然而,科技行业的每一次挑战,都伴随着海量的审视和质疑。Furiosa面临的拷问,同样尖锐。
首先,那个3.5倍的对比,公平吗?
“这张图很奇怪,他们对比的是3台H100 PCIe配置,我不认为有人会这么用。”
“他们想在同功耗下对比?我只想看他们的盒子对上一个8块H100的盒子,因为那才是人们真正会买的东西。”
有评论指出,如果与单颗功耗更高的H100 SXM版本(15kW)比,是3.5倍优势;但如果与更常见的3台H100 PCIe服务器配置比,优势就缩水到1.5倍。对比基准的选择,永远是一门“艺术”。
第二,它到底能跑什么?
“它能实际运行什么?他们的基准图提到了Llama 3.1 8B,这暗示我它是专门为那个模型手工优化的,很可能无法运行更新/更大的模型。不然为什么用这么旧的模型做基准?给我看看GPT-OSS-120B或类似模型的基准。”
这是对专用芯片灵活性的经典质疑。Furiosa强调其LLM运行时兼容OpenAI API,并支持vLLM生态,但市场需要看到其在更多样化、更复杂模型上的实际表现。“专用”是一把双刃剑,在获得效率的同时,也可能画地为牢。
“定位说得通,但我仍然持怀疑态度。针对推理的功耗、冷却和TCO限制是真实的,尤其是在风冷数据中心。但展示的基准范围很窄,不清楚这在跨模型和混合生产负载上泛化得如何。GPU在这里效率低,但它们的灵活性仍然重要。”
第三,也是最根本的:只做推理,够吗?
“兴奋了一下,然后看到它只用于推理。打哈欠。”
“所以只做推理,而且比B200慢?也许它们便宜。”
Furiosa明确将自己定位在推理市场。这是一个明智的差异化选择,避开了与英伟达在全方位训练能力上的正面交锋。但这也意味着,它的天花板是可见的。
当客户需要从训练到推理的全栈解决方案时,Furiosa可能只是拼图中的一块。
起义的号角,还是细分市场的敲门砖?
Furiosa的故事,本质上不是一个“屠龙”的故事。
它揭示了一个正在裂变的市场:AI基础设施的需求,正在从追求绝对性能的“军备竞赛”,分化为追求极致效率的“精细化运营”。
英伟达的GPU是全能冠军,但功耗和成本让它无法覆盖每一个角落。当全球80%的数据中心无法轻易拥抱它时,巨大的空白市场就出现了。
Furiosa的NXT RNGD服务器,像一把特制的钥匙,试图打开这扇被物理条件锁住的大门。它不追求在最高端的液冷数据中心里战胜H200或B200,它追求的是在成千上万普通的企业机房和云数据中心里,成为那个唯一可行的选择。
它的成功,不取决于能否在峰值性能上击败英伟达,而取决于能否在“总拥有成本”这个更现实的账本上,说服足够多的“LG”。
“台积电显然有兴趣优先给英伟达的竞争对手流片,他们受益于一个不那么集中的客户群来抬高报价。”
这条评论点出了另一个暗流:整个半导体产业链,或许都乐见一个不那么垄断的市场。Furiosa这样的挑战者,即使份额不大,也能成为制衡的力量,让巨头不敢懈怠。
这场由能效发起的起义,结局远未可知。但它清晰地传递出一个信号:AI的普及化,下一道关卡不是算法,而是电力。谁能为世界省下电费,谁就可能拿到下一张船票。
Furiosa的服务器2026年1月才上市,留给它的时间,还有整整一年。这一年里,英伟达和它的挑战者们,会如何接招?
当AI的战场从代码转向电缆,好戏,才刚刚开场。