Qwen3.5 来了！开源模型界的“效率怪兽”，线性注意力 + 稀疏 MoE，397B 混合架构跑出 19 倍速度

今天，阿里甩出了 Qwen3.5 系列的首个开源权重模型—— Qwen3.5-397B-A17B。

光看名字你可能觉得“又是一个数字游戏”，但这次不一样。这不仅仅是个“大”模型，更是一个“巧”模型。

3970 亿参数，听起来吓人，但它每次推理只激活 170 亿。

这就好比一辆拥有 F1 赛车引擎的跑车，平时只当买菜车开，但一脚油门下去，它又能跑赢 GPT-5.2。

更绝的是，它的解码吞吐量相比 Qwen3-Max 提升了 8.6 倍到 19 倍。

在这个大家都在卷参数、卷算力的时代，Qwen3.5 却在教我们怎么“偷懒”赚钱。

混合架构：当 MoE 遇上线性注意力

Qwen3.5 的核心秘密，在于它那个听起来很玄乎的“混合架构”。

简单说，它把 线性注意力 和 稀疏混合专家模型 揉在了一起。

这就像是给模型装了个“智能分流器”。虽然肚子里有 3970 亿个参数，但处理每个任务时，它只唤醒其中最相关的 170 亿个“专家”。

这不仅仅是省显存那么简单。

根据官方数据，这种架构让模型在保持高性能的同时，推理速度有了质的飞跃。以前跑个复杂任务得等半天，现在几乎是“秒回”。

而且，它还是原生多模态的。

这意味着它不是生硬地把视觉模型拼在语言模型上，而是从一开始就是为“看图说话”设计的。不管是看视频、写代码，还是当你的私人助理，它都能一把梭。

性能炸裂

俺知道大伙最关心的是什么：它能打吗？

直接上数据。

在 MMLU-Pro 这个硬核知识评测中，Qwen3.5 拿到了 87.8 分，直接跟 GPT-5.2（87.4）和 Claude 4.5 Opus（89.5）站到了同一水平线。

在数学推理这块，HMMT Feb 25 它拿了 99.4 分，比 GPT-5.2 还高。

最让我惊讶的是它的多语言能力。支持 201 种语言和方言，比上一代多了快一倍。

老实讲，作为一个开源模型，这表现有点“犯规”了。

特别是它的 Agent 能力。在 BFCL-V4、VITA-Bench 这些专门测试智能体工具调用的榜单上，它不仅跑得快，脑子还转得快。

官方说这是靠“大规模 RL 环境缩放”堆出来的。

说白了，就是让它在一个超高难度的模拟环境里疯狂练级。别人是在刷题，它是在实战。

效率怪兽：8.6x 到 19.0x 的吞吐量提升

如果说性能是面子，那效率就是里子。

Qwen3.5-397B-A17B 的解码吞吐量，最高达到了 Qwen3-Max 的 19 倍。

这背后是 Qwen3-Next 架构的功劳。

更高的稀疏度、Gated DeltaNet 加上 Gated Attention，再加上多 Token 预测。这一套组合拳下来，不仅速度快，还稳。

这意味着什么？

对于开发者来说，你可以用更少的钱，跑更复杂的任务。对于企业来说，部署成本直接降维打击。

而且，它还是 Apache 2.0 协议开源。

这意味着你可以商用、可以修改、可以闭源。除了不能用它去干坏事，基本随便造。

真正的 Agent：能看、能想、还能干

光看跑分太枯燥，我们来看看它能干什么。

Qwen3.5 不仅仅是用来聊天的，它是为了成为真正的“通用数字智能体”。

Coding & Agents

它能帮你写网页、设计 UI，甚至直接把你的草图变成代码。

你给它一张手绘的 UI 图，它能直接吐出 React 或者 Vue 的代码。

Visual Agents

它还能当你的“眼睛”。

你给它一段视频，它能帮你总结内容，甚至帮你复刻里面的游戏代码。

甚至，它还能理解复杂的交通场景，分析为什么车没停下来。

Thinking with Images

最绝的是，它还能一边看图一边用代码解释器推理。

比如那个迷宫题，它不仅能看懂迷宫，还能自己写代码算出最短路径，然后把路径画在图上给你看。

这就不是简单的“认图”了，这是真正的“视觉推理”。

写在最后

Qwen3.5 的发布，其实释放了一个很明显的信号：

大模型的竞争，已经从单纯的“卷参数”，变成了“卷架构”和“卷效率”。

3970 亿参数虽然听着吓人，但 MoE 架构让它变得轻盈且强大。

对于开发者来说，这绝对是个好消息。

你不用再羡慕闭源模型的“魔法”，现在你手里也有一把屠龙刀。

GitHub 链接已经放出来了，ModelScope 和 Hugging Face 也能直接下。

别犹豫了，先下为敬。

毕竟，能免费跑 GPT-5.2 级别的模型，这种机会可不多见。

参考链接：
https://x.com/Alibaba_Qwen/status/2023331062433153103