今天,阿里甩出了 Qwen3.5 系列的首个开源权重模型—— Qwen3.5-397B-A17B。
光看名字你可能觉得“又是一个数字游戏”,但这次不一样。这不仅仅是个“大”模型,更是一个“巧”模型。
3970 亿参数,听起来吓人,但它每次推理只激活 170 亿。
这就好比一辆拥有 F1 赛车引擎的跑车,平时只当买菜车开,但一脚油门下去,它又能跑赢 GPT-5.2。
更绝的是,它的解码吞吐量相比 Qwen3-Max 提升了 8.6 倍到 19 倍。
在这个大家都在卷参数、卷算力的时代,Qwen3.5 却在教我们怎么“偷懒”赚钱。
混合架构:当 MoE 遇上线性注意力
Qwen3.5 的核心秘密,在于它那个听起来很玄乎的“混合架构”。
简单说,它把 线性注意力 和 稀疏混合专家模型 揉在了一起。
这就像是给模型装了个“智能分流器”。虽然肚子里有 3970 亿个参数,但处理每个任务时,它只唤醒其中最相关的 170 亿个“专家”。
这不仅仅是省显存那么简单。
根据官方数据,这种架构让模型在保持高性能的同时,推理速度有了质的飞跃。以前跑个复杂任务得等半天,现在几乎是“秒回”。
而且,它还是原生多模态的。
这意味着它不是生硬地把视觉模型拼在语言模型上,而是从一开始就是为“看图说话”设计的。不管是看视频、写代码,还是当你的私人助理,它都能一把梭。
性能炸裂
俺知道大伙最关心的是什么:它能打吗?
直接上数据。
在 MMLU-Pro 这个硬核知识评测中,Qwen3.5 拿到了 87.8 分,直接跟 GPT-5.2(87.4)和 Claude 4.5 Opus(89.5)站到了同一水平线。
在数学推理这块,HMMT Feb 25 它拿了 99.4 分,比 GPT-5.2 还高。
最让我惊讶的是它的多语言能力。支持 201 种语言和方言,比上一代多了快一倍。
老实讲,作为一个开源模型,这表现有点“犯规”了。
特别是它的 Agent 能力。在 BFCL-V4、VITA-Bench 这些专门测试智能体工具调用的榜单上,它不仅跑得快,脑子还转得快。
官方说这是靠“大规模 RL 环境缩放”堆出来的。
说白了,就是让它在一个超高难度的模拟环境里疯狂练级。别人是在刷题,它是在实战。
效率怪兽:8.6x 到 19.0x 的吞吐量提升
如果说性能是面子,那效率就是里子。
Qwen3.5-397B-A17B 的解码吞吐量,最高达到了 Qwen3-Max 的 19 倍。
这背后是 Qwen3-Next 架构的功劳。
更高的稀疏度、Gated DeltaNet 加上 Gated Attention,再加上多 Token 预测。这一套组合拳下来,不仅速度快,还稳。
这意味着什么?
对于开发者来说,你可以用更少的钱,跑更复杂的任务。对于企业来说,部署成本直接降维打击。
而且,它还是 Apache 2.0 协议开源。
这意味着你可以商用、可以修改、可以闭源。除了不能用它去干坏事,基本随便造。
真正的 Agent:能看、能想、还能干
光看跑分太枯燥,我们来看看它能干什么。
Qwen3.5 不仅仅是用来聊天的,它是为了成为真正的“通用数字智能体”。
Coding & Agents
它能帮你写网页、设计 UI,甚至直接把你的草图变成代码。
你给它一张手绘的 UI 图,它能直接吐出 React 或者 Vue 的代码。
Visual Agents
它还能当你的“眼睛”。
你给它一段视频,它能帮你总结内容,甚至帮你复刻里面的游戏代码。
甚至,它还能理解复杂的交通场景,分析为什么车没停下来。
Thinking with Images
最绝的是,它还能一边看图一边用代码解释器推理。
比如那个迷宫题,它不仅能看懂迷宫,还能自己写代码算出最短路径,然后把路径画在图上给你看。
这就不是简单的“认图”了,这是真正的“视觉推理”。
写在最后
Qwen3.5 的发布,其实释放了一个很明显的信号:
大模型的竞争,已经从单纯的“卷参数”,变成了“卷架构”和“卷效率”。
3970 亿参数虽然听着吓人,但 MoE 架构让它变得轻盈且强大。
对于开发者来说,这绝对是个好消息。
你不用再羡慕闭源模型的“魔法”,现在你手里也有一把屠龙刀。
GitHub 链接已经放出来了,ModelScope 和 Hugging Face 也能直接下。
别犹豫了,先下为敬。
毕竟,能免费跑 GPT-5.2 级别的模型,这种机会可不多见。
参考链接:
https://x.com/Alibaba_Qwen/status/2023331062433153103