多智能体系统产生的Token量,是普通聊天的整整15倍。
这是什么概念?这就是企业AI落地最残酷的现实:为了解决复杂任务,你的成本正在呈指数级爆炸。但就在今天,英伟达扔出了一颗重磅炸弹——Nemotron 3 Super。
老黄不仅想帮你省钱,还想顺便重新定义一下“混合架构”。
三合一
说实话,现在的模型圈有点“偏科”。
要么像Transformer一样,聪明但费显存;要么像Mamba一样,快但记性不好。英伟达这次直接掀桌子:小孩子才做选择,我全都要。
Nemotron 3 Super 是一个1200亿参数的“缝合怪”,它把State-Space Models(SSM)、Transformer、以及全新的“潜在”混合专家设计这三种架构进行融合。
这可不是简单的堆砌。
就像修一条高速公路,Mamba-2层就是那条“快车道”,负责处理海量序列,线性时间复杂度,直接把显存占用压下来;而Transformer层就像是在关键路口设置的“服务区”,专门用来精确定位信息。
你知道多智能体最怕什么吗?最怕“大海捞针”找不到关键信息。纯SSM模型经常在长文本里迷路,英伟达就穿插了Transformer层作为“全球定位锚点”,确保模型能在一堆代码或财报里精准揪出那个关键数字。
更有意思的是它的LatentMoE(潜在混合专家)技术。
传统的MoE路由太慢,英伟达搞了个“压缩空间”,先把Token投影到压缩空间再找专家。结果,同样的算力,能咨询的专家数量翻了4倍。这就像你原本只能挂3个专家号,现在能挂12个,挂号费还没涨。
专治“吞吐量焦虑”,Qwen看了都得沉默
光说不练假把式,咱们直接看数据。
在吞吐量这个企业最关心的指标上,Nemotron 3 Super 简直是“杀疯了”。数据显示,在高并发场景下,它的吞吐量比 gpt-oss-120B 高出2.2倍,比 Qwen3.5-122B 高出整整7.5倍。
老实讲,这个差距有点夸张了。
这还没完,它在DeepResearch Bench上拿了第一,这可是专门测试AI能不能像人一样做多步研究、翻大堆文档的硬核榜单。
英伟达不仅模型做得大,还把自家的硬件优势发挥到了极致。这模型原生就在Blackwell架构上用NVFP4(4-bit浮点)预训练。
效果立竿见影:在Blackwell上跑,推理速度比上一代Hopper架构上的8-bit模型快了4倍,精度还没损失。
一面发模型啊,一面逼着企业换显卡。
免费商用?老黄给你画了个圈
模型权重已经发在Hugging Face上了,听起来很美好?
别急,英伟达这次用的是自定义的Nvidia Open Model License。虽然允许商用,甚至输出内容的所有权也归用户,但老黄在里面埋了两颗“雷”。
第一颗雷:不能拆护栏。如果你想绕过模型的安全限制,对不起,协议直接终止。除非你自己能搞出一套“实质上相似”的安全措施。
第二颗雷:不能起诉英伟达。如果你起诉英伟达侵权,那你的模型使用授权也会立刻作废。
这招挺高明,既防了“白嫖党”搞破坏,又防了“专利流氓”碰瓷。虽然不如MIT协议那么“裸奔”,但在大模型圈子里,这已经算是相当大方了。
Nvidia VP Kari Briski 表示:
“当企业从聊天机器人转向多智能体应用时,他们会遇到……上下文爆炸。”
而 Nemotron 3 Super 就是来治这个“爆炸”的。
开发者:这波真的“熟了”
这波发布在圈子里引起了不小的震动。
Nvidia的高级产品研究工程师 Chris Alexiuk 在X上激动地发帖,称这是“SUPER DAY”,还强调这是英伟达“目前最开放的模型”——不仅给了权重,还甩出了10万亿Token的训练数据和配方。
工业界的反应也很快。CodeRabbit、Greptile 这种搞代码分析的已经在接入了,西门子、Palantir 这种工业巨头也在往制造和网络安全场景里搬。
毕竟,谁不想用一个120B参数的大脑,只花小模型的电费呢?
对于企业来说,这或许是一个信号:那个“思考税”昂贵的时代,可能真的要翻篇了。
不过,当硬件厂商亲自下场卷模型,而且还是这种“软硬一体”的降维打击,其他的模型厂商,真的睡得着吗?
【glm-5锐评】:老黄这招“软硬通吃”太绝了,左手卖铲子右手卖水,吞吐量碾压友商的同时还顺手定义了新标准,这哪里是开源,分明是给Blackwell显卡发的“必买说明书”。
参考链接:
https://venturebeat.com/technology/nvidias-new-open-weights-nemotron-3-super-combines-three-different