Furiosa AI芯片：推理效率超越H100 3.5倍

这是一份发给全球数据中心的“最后通牒”

一家名为Furiosa AI的公司，刚刚扔出了一颗“能效炸弹”：其新款AI服务器，在同等功耗下，推理性能据称能达到英伟达H100的3.5倍。

数字很吓人，但背后的故事更残酷。它瞄准的不是纸面算力的巅峰，而是绝大多数企业数据中心那道无法跨越的物理鸿沟——电力和冷却的极限。

当英伟达的GPU服务器动辄要求10千瓦以上的功耗和昂贵的液冷系统时，Furiosa说：用我的，3千瓦，风冷就行。

这场起义，能成功吗？

数据中心，撞上了物理学的墙

全球数据中心的电力需求，2024年已达60吉瓦。预计到2030年，这个数字还要翻三倍。

但一个冰冷的事实是：超过80%的现有数据中心是风冷的，每个机架的功率上限通常在8千瓦或更低。

“英伟达当前的架构遇到了瓶颈，就像英特尔历史上多次经历的那样——他们当前一代产品的电力和冷却要求，正在迫使人们建造全新架构的数据中心。”

这条热门评论一针见血。疯狂堆砌GPU算力，带来的是一连串连锁反应：天价的GPU、为它量身定制的新数据中心、配套的发电厂、甚至关乎土地和水权的政治游说。经济学模型，正在被物理学重塑。

推理，成了第一个“成本绞肉机”。

训练可以不计代价，但7x24小时持续运行的推理服务，每瓦特性能都直接挂钩真金白银。当企业看着电费账单和机房改造预算发愁时，效率就成了最硬的通货。

Furiosa的NXT RNGD服务器，就卡在这个节点上出现了。

一台能溜进旧机房的“特洛伊木马”

它的核心卖点简单粗暴：别折腾你的机房了，我能直接塞进去。

单系统功耗3千瓦——这意味着它可以轻松入驻绝大多数现有风冷机架，而无需进行昂贵的液冷改造或电力扩容。

技术规格看起来很能打：

最多8颗自研RNGD加速器，提供4 PFLOPS的FP8算力，搭配384GB的HBM3内存。软件栈预装了自家的SDK和与大模型服务框架vLLM兼容的“Furiosa LLM运行时”，声称开箱即用。

“NXT RNGD服务器提供了一条实用的前进道路。它允许组织在其现有设施内部署先进AI，而无需令人望而却步的能源成本或破坏性的改造。”

Furiosa描绘的图景是：企业不用再为AI专门建造“神庙”，而是在现有的“民居”里，悄悄部署高效的生产力工具。

但这套说辞，需要重量级的背书。

第一个大客户：LG的“投票”

Furiosa找到了一个强有力的证明：LG AI研究所。

今年7月，LG宣布在其EXAONE模型上采用RNGD进行推理计算。

根据公布的数据，在一台配备4块RNGD卡的服务器上，运行EXAONE 3.5 320亿参数模型，在4K上下文长度下生成了每秒60个token，32K长度下为每秒50个token。

FuriosaAI CTO Hanjoon Kim在OpenAI首尔发布会现场

这不仅仅是一个测试数据。双方正在合作，向电子、金融、电信、生物技术等关键领域的企业供应搭载EXAONE的NXT RNGD服务器。

一个消费电子巨头，用自己的核心AI模型，为一家挑战者的硬件站台。这比任何广告都更有分量。

LG的选择，像一枚楔子，钉进了由英伟达统治的AI基础设施版图。

它证明了一条路径的可行性：对于有私有化部署、数据安全敏感或成本控制需求的大企业，一个高能效、即插即用的专用方案，具有致命的吸引力。

质疑声浪：效率赢了，然后呢？

然而，科技行业的每一次挑战，都伴随着海量的审视和质疑。Furiosa面临的拷问，同样尖锐。

首先，那个3.5倍的对比，公平吗？

“这张图很奇怪，他们对比的是3台H100 PCIe配置，我不认为有人会这么用。”
“他们想在同功耗下对比？我只想看他们的盒子对上一个8块H100的盒子，因为那才是人们真正会买的东西。”

有评论指出，如果与单颗功耗更高的H100 SXM版本（15kW）比，是3.5倍优势；但如果与更常见的3台H100 PCIe服务器配置比，优势就缩水到1.5倍。对比基准的选择，永远是一门“艺术”。

第二，它到底能跑什么？

“它能实际运行什么？他们的基准图提到了Llama 3.1 8B，这暗示我它是专门为那个模型手工优化的，很可能无法运行更新/更大的模型。不然为什么用这么旧的模型做基准？给我看看GPT-OSS-120B或类似模型的基准。”

这是对专用芯片灵活性的经典质疑。Furiosa强调其LLM运行时兼容OpenAI API，并支持vLLM生态，但市场需要看到其在更多样化、更复杂模型上的实际表现。“专用”是一把双刃剑，在获得效率的同时，也可能画地为牢。

“定位说得通，但我仍然持怀疑态度。针对推理的功耗、冷却和TCO限制是真实的，尤其是在风冷数据中心。但展示的基准范围很窄，不清楚这在跨模型和混合生产负载上泛化得如何。GPU在这里效率低，但它们的灵活性仍然重要。”

第三，也是最根本的：只做推理，够吗？

“兴奋了一下，然后看到它只用于推理。打哈欠。”
“所以只做推理，而且比B200慢？也许它们便宜。”

Furiosa明确将自己定位在推理市场。这是一个明智的差异化选择，避开了与英伟达在全方位训练能力上的正面交锋。但这也意味着，它的天花板是可见的。

当客户需要从训练到推理的全栈解决方案时，Furiosa可能只是拼图中的一块。

起义的号角，还是细分市场的敲门砖？

Furiosa的故事，本质上不是一个“屠龙”的故事。

它揭示了一个正在裂变的市场：AI基础设施的需求，正在从追求绝对性能的“军备竞赛”，分化为追求极致效率的“精细化运营”。

英伟达的GPU是全能冠军，但功耗和成本让它无法覆盖每一个角落。当全球80%的数据中心无法轻易拥抱它时，巨大的空白市场就出现了。

Furiosa的NXT RNGD服务器，像一把特制的钥匙，试图打开这扇被物理条件锁住的大门。它不追求在最高端的液冷数据中心里战胜H200或B200，它追求的是在成千上万普通的企业机房和云数据中心里，成为那个唯一可行的选择。

它的成功，不取决于能否在峰值性能上击败英伟达，而取决于能否在“总拥有成本”这个更现实的账本上，说服足够多的“LG”。

“台积电显然有兴趣优先给英伟达的竞争对手流片，他们受益于一个不那么集中的客户群来抬高报价。”

这条评论点出了另一个暗流：整个半导体产业链，或许都乐见一个不那么垄断的市场。Furiosa这样的挑战者，即使份额不大，也能成为制衡的力量，让巨头不敢懈怠。

这场由能效发起的起义，结局远未可知。但它清晰地传递出一个信号：AI的普及化，下一道关卡不是算法，而是电力。谁能为世界省下电费，谁就可能拿到下一张船票。

Furiosa的服务器2026年1月才上市，留给它的时间，还有整整一年。这一年里，英伟达和它的挑战者们，会如何接招？

当AI的战场从代码转向电缆，好戏，才刚刚开场。