35B总参,3B激活,一个反常识的怪物

参数越小,性能越强。

这话搁两年前说,会被人当笑话。但2026年的今天,通义千问用一条推文,把行业共识砸出了裂缝。

Qwen3.6-35B-A3B。

名字很长,参数很怪——总参数35B,激活参数只有3B。什么概念?一个稀疏MoE模型,用十分之一的"燃料",跑出了和重型卡车一样的里程。

更狠的是这句宣传语:Agentic coding on par with models 10x its active size。

翻译成人话:编程能力对标那些激活参数30B以上的选手。

10倍。这不是碰瓷,这是骑脸输出。

稀疏MoE:省电费,更省脸面

有人可能要问了:35B总参,为啥只激活3B?

这就得聊聊稀疏MoE(Mixture of Experts)这套玩法了。

传统Dense模型,甭管用不用得上,60亿参数全天候待命。电表转得比陀螺还快,显卡热得能煎鸡蛋。

MoE不一样。它养了一堆"专家",每次只叫醒几个能干的。剩下的在家躺平领工资。

Qwen3.6-35B-A3B就是这思路。35个B的总班子,3个B上岗干活。剩下的32个B是"备胎"——需要的时候再上,不需要的时候装死。

省显存,省算力,省电费。

但省出来的不是性能,是脸面。

官方说法:只激活3B参数,编程能力就能和那些10倍激活参数的模型掰手腕。Multi-modal推理更是"远超体积预期"。

这话我信一半。

毕竟官方嘴里,每一代都是"史上最强"。

但数据摆在那儿:它比自家上一代Qwen3.5-35B-A3B强出一截,甚至把27B的Qwen3.5-27B按在地上摩擦。

27B对3B。参数差9倍,性能被反杀。

这就有点意思了。

开源这门生意,阿里玩明白了

Apache 2.0协议。

没有任何限制商用,没有任何附加条款。你拿去做商业产品,改完开源或者闭源,人家管都不管。

大气。

但你要觉得阿里在做慈善,建议重修经济学。

开源模型,吸引开发者来玩、来调优、来写教程。开发者玩顺手了,习惯这个生态了,自然会往阿里云上迁移。

API调用要钱,Model Studio要钱,云服务要钱。

模型本身不赚钱,但模型带来的流量和粘性,是钱。

而且这波操作,PR价值拉满。"开源"两个字,在AI圈自带光环。用户骂OpenAI封闭的时候,搬出阿里就是正面案例。

花小钱,办大事。

顺便还能恶心一下隔壁还在收钱的闭源玩家。

AI配图

一箭三雕。

社区炸了,意见分裂

推文评论区,活脱脱一个大型行为艺术现场。

有人实测跑通,跑去Claude Code里玩出了花。UnslothAI连夜出了GGUF格式,23GB内存的Mac都能跑。

这是真·造福大众。

但也有人唱反调。

zwiebelhelm一句"oh hell nah why is it worse than qwen3.5 27b",直接把评论区干沉默。

等等。官方不是说比27B强吗?

这里有个盲点:官方比的"several key coding benchmarks"。不是所有指标,不是所有场景。

某些特定任务上,27B的老模型可能就是更好。这很正常。模型不是金子,不可能处处发光。

但网友不管这个。期待拉满,失望更大。

还有更灵魂的拷问。

prayag_sonar问:"Why do companies release open source models, knowing it may impact their own revenue?"

AI配图

这话问到点子上了。

开源会侵蚀自己的付费用户,这不是秘密。

阿里的答案是:生态大于变现。开发者用我的模型,用我的工具链,最后离不开我的云服务。这笔账,比卖模型本身值钱。

OpenAI和Anthropic现在应该也在研究这套玩法。

但他们敢吗?自己革自己的命,需要勇气。

结尾留个问题

Qwen3.6-35B-A3B证明了一件事:参数不是一切,架构才是王道。

AI配图

3B激活参数能干翻10倍参数的模型,说明行业还在往"聪明"的方向卷,而不是傻堆算力。

这是好事。

但我更好奇的是——

当开源模型越来越强,闭源模型的护城河,还能撑多久?

【锐评】:阿里这波开源,既赚了口碑又挖了墙脚,OpenAI看了沉默,Anthropic看了流泪。但说真的,3B打10倍这种数据,官方自己信几分?等实测吧。

参考链接:
https://x.com/Alibaba_Qwen/status/2044768734234243427