吞吐量暴涨7.5倍！英伟达开源 Nemotron 3 Super，Mamba 与 Transformer融合体把GPT和Qwen卷哭了

多智能体系统产生的Token量，是普通聊天的整整15倍。

这是什么概念？这就是企业AI落地最残酷的现实：为了解决复杂任务，你的成本正在呈指数级爆炸。但就在今天，英伟达扔出了一颗重磅炸弹——Nemotron 3 Super。

老黄不仅想帮你省钱，还想顺便重新定义一下“混合架构”。

三合一

说实话，现在的模型圈有点“偏科”。

要么像Transformer一样，聪明但费显存；要么像Mamba一样，快但记性不好。英伟达这次直接掀桌子：小孩子才做选择，我全都要。

Nemotron 3 Super 是一个1200亿参数的“缝合怪”，它把State-Space Models（SSM）、Transformer、以及全新的“潜在”混合专家设计这三种架构进行融合。

这可不是简单的堆砌。

就像修一条高速公路，Mamba-2层就是那条“快车道”，负责处理海量序列，线性时间复杂度，直接把显存占用压下来；而Transformer层就像是在关键路口设置的“服务区”，专门用来精确定位信息。

你知道多智能体最怕什么吗？最怕“大海捞针”找不到关键信息。纯SSM模型经常在长文本里迷路，英伟达就穿插了Transformer层作为“全球定位锚点”，确保模型能在一堆代码或财报里精准揪出那个关键数字。

更有意思的是它的LatentMoE（潜在混合专家）技术。

传统的MoE路由太慢，英伟达搞了个“压缩空间”，先把Token投影到压缩空间再找专家。结果，同样的算力，能咨询的专家数量翻了4倍。这就像你原本只能挂3个专家号，现在能挂12个，挂号费还没涨。

光说不练假把式，咱们直接看数据。

在吞吐量这个企业最关心的指标上，Nemotron 3 Super 简直是“杀疯了”。数据显示，在高并发场景下，它的吞吐量比 gpt-oss-120B 高出2.2倍，比 Qwen3.5-122B 高出整整7.5倍。

老实讲，这个差距有点夸张了。

这还没完，它在DeepResearch Bench上拿了第一，这可是专门测试AI能不能像人一样做多步研究、翻大堆文档的硬核榜单。

英伟达不仅模型做得大，还把自家的硬件优势发挥到了极致。这模型原生就在Blackwell架构上用NVFP4（4-bit浮点）预训练。

效果立竿见影：在Blackwell上跑，推理速度比上一代Hopper架构上的8-bit模型快了4倍，精度还没损失。

一面发模型啊，一面逼着企业换显卡。

模型权重已经发在Hugging Face上了，听起来很美好？

别急，英伟达这次用的是自定义的Nvidia Open Model License。虽然允许商用，甚至输出内容的所有权也归用户，但老黄在里面埋了两颗“雷”。

第一颗雷：不能拆护栏。如果你想绕过模型的安全限制，对不起，协议直接终止。除非你自己能搞出一套“实质上相似”的安全措施。

第二颗雷：不能起诉英伟达。如果你起诉英伟达侵权，那你的模型使用授权也会立刻作废。

这招挺高明，既防了“白嫖党”搞破坏，又防了“专利流氓”碰瓷。虽然不如MIT协议那么“裸奔”，但在大模型圈子里，这已经算是相当大方了。

Nvidia VP Kari Briski 表示：

“当企业从聊天机器人转向多智能体应用时，他们会遇到……上下文爆炸。”

而 Nemotron 3 Super 就是来治这个“爆炸”的。

这波发布在圈子里引起了不小的震动。

Nvidia的高级产品研究工程师 Chris Alexiuk 在X上激动地发帖，称这是“SUPER DAY”，还强调这是英伟达“目前最开放的模型”——不仅给了权重，还甩出了10万亿Token的训练数据和配方。

工业界的反应也很快。CodeRabbit、Greptile 这种搞代码分析的已经在接入了，西门子、Palantir 这种工业巨头也在往制造和网络安全场景里搬。

毕竟，谁不想用一个120B参数的大脑，只花小模型的电费呢？

对于企业来说，这或许是一个信号：那个“思考税”昂贵的时代，可能真的要翻篇了。

不过，当硬件厂商亲自下场卷模型，而且还是这种“软硬一体”的降维打击，其他的模型厂商，真的睡得着吗？

【glm-5锐评】：老黄这招“软硬通吃”太绝了，左手卖铲子右手卖水，吞吐量碾压友商的同时还顺手定义了新标准，这哪里是开源，分明是给Blackwell显卡发的“必买说明书”。

参考链接：
https://venturebeat.com/technology/nvidias-new-open-weights-nemotron-3-super-combines-three-different