以前大家迷信参数量,觉得大就是好,大就是强,参数量就是尊严。

昨晚阿里通义千问团队干了一件事,直接把这个“潜规则”给掀了。

AI配图

他们发布了Qwen3.6-27B,一个270亿参数的稠密模型。听上去很普通对吧?毕竟现在动不动就是千亿参数。但这个“小个子”干了一件极其疯狂的事——

它在所有主流代码基准测试中,全面超越了自家上一代的3970亿参数模型(Qwen3.5-397B-A17B)。

注意,不是微弱优势,是全面碾压。参数量只有对手的十五分之一,成绩单却更漂亮。这哪里是发布新品,简直是公开处刑自家的“老大哥”。

越级打怪,小个子的大能量

说实话,看到这个对比数据时,我第一反应是是不是写错小数点了。

但官方推文写得很清楚:Smaller model. Bigger results.(更小的模型,更大的结果)。

AI配图

咱们来看一组硬碰硬的数据。

在SWE-bench Verified测试中,Qwen3.6-27B得分77.2,而那个庞大的397B模型只有76.2;在更难的SWE-bench Pro中,27B拿下了53.5,老大哥只有50.9。

最离谱的是Terminal-Bench 2.0,这是考验模型在终端里“干活”能力的硬核测试,27B跑出了59.3,把397B的52.5远远甩在身后。

27B doing flagship agentic coding? I just swapped Claude for this on a refactor and it actually shipped without me fixing half the output. Open weights are eating.

一位开发者在评论区直呼:这简直是旗舰级的代码能力。他甚至直接把Claude换成了这个27B模型,重构代码竟然一次过,不用像以前那样修修补补。

AI配图

这就很有意思了。以前我们以为“大力出奇迹”,现在看来,“精装修”可能比“毛坯大别墅”更实用。

MoE的噩梦,Dense的文艺复兴

这事儿还得聊聊技术路线。

过去两年,MoE(混合专家模型)架构大火。简单说,就是把一个大模型拆成很多小专家,每次只激活一部分。听起来很美,参数量上去了,推理成本还低。

但实际落地呢?

MoE models are benchmark beasts but a nightmare to serve efficiently at scale.

有资深开发者一针见血:MoE模型是“跑分怪兽”,但在大规模服务部署时简直是噩梦。

这就是为什么Qwen3.6-27B这次能赢。它回归了Dense(稠密)模型架构。虽然参数量只有27B,但每一次推理都是全参数参与,没有“偷懒”。

而且,27B这个尺寸,简直是**“黄金尺寸”**。

太大了,个人开发者玩不起;太小了,智商不够用。27B,刚好卡在很多高端显卡的甜点区。有用户甚至兴奋地表示,这个尺寸非常适合在家庭NAS上部署,做一个完全离线的私人知识库助手,数据隐私绝对安全

开发者的“真香”时刻:这回真能本地跑了

比起跑分,开发者更在意的是“能不能用”。

这次Qwen3.6-27B直接给了三个大招:Qwen Code、Claude Code兼容、OpenClaw。

特别是Claude Code兼容这一点,阿里这次真的很懂人心。你只需要配置一下环境变量,就能把Qwen3.6-27B当作Claude的底层模型来用。

这意味着什么?

意味着你可以用Claude Code那套丝滑的交互体验,背后跑的却是免费、开源、可本地部署的Qwen。

Compared with 35B in coding! 27b is slower but way better with details!

有用户对比了之前的35B版本,结论是:27B虽然速度稍慢一点,但在细节处理上完胜。

还有技术宅扒出了它的架构细节:混合缓存机制,16层注意力层加上48层SSM层。这套组合拳,让它在处理长文本和复杂逻辑时,既快又稳。

而且,它还是原生多模态。不仅能看图,还能处理视频,支持“思考模式”和“非思考模式”切换。一个模型,把理解和推理的活儿都干了。

开源模型的“阳谋”

阿里这波操作,其实暴露了开源界的一个“阳谋”。

以前闭源模型(比如GPT-4、Claude)那是“降维打击”,开源只能跟在后面吃灰。但现在,开源模型开始**“反向卷”**。

我不跟你比谁参数大,我比谁更实用、谁更便宜、谁能跑在你的电脑上。

Qwen3.6-27B不仅是代码能力强,它还是Apache 2.0协议。这意味着什么?意味着你可以随便改、随便用、甚至拿去卖钱,阿里一分钱不要。

这简直就是把“屠龙刀”塞到了开发者手里。

从3B的轻量级,到这次的27B“甜点级”,再到API版的Plus和Max,通义千问正在把每一个尺寸段都填满。而且,每一个都身怀绝技。

这哪里是发模型,分明是在构建一个生态闭环。

当开源模型开始比闭源模型更懂“干活”,更懂“省钱”,那些还在收API调用费的巨头们,是不是该慌了?

【锐评】:
参数量的军备竞赛该歇歇了,阿里用27B证明了一件事:在AI时代,精致的小型化才是通往AGI的捷径。

参考链接:
https://x.com/Alibaba_Qwen/status/2046939764428009914