2026年4月18日,阿里通义千问扔出了重磅炸弹——Qwen3.6-Max-Preview。
这一波更新,Qwen 团队显然是有备而来。新模型直接在 SWE-bench Pro、Terminal-Bench 2.0 等 6 个主流编程榜单上拿下了第一。官方甚至用了 "Smarter, Sharper"(更聪明、更犀利)来形容这次升级。
但有意思的是,就在全网刷屏庆祝 SOTA(当前最佳)的时候,评论区却飘来了一股“酸味”。
有人质疑价格太贵,有人吐槽对比对象是旧版 Opus,更扎心的是,同一天发布的 Kimi K2.6,竟然在部分核心指标上反超了 Qwen,价格还便宜了一半。
榜单屠夫,还是数据游戏?
先看成绩单。Qwen 这次确实够狠。
相比上一代的 Qwen3.6-Plus,Max-Preview 在智能体编程能力上简直是暴走。SkillsBench 暴涨 9.9 分,SciCode 提升 6.3 分,NL2Repo 也涨了 5.0 分。
简单说,这模型不只是在“写代码”,它更像是一个能自己思考、自己操作终端的“程序员”。
官方数据显示,它在世界知识和指令遵循上也都有不小的进步。比如 QwenChineseBench 提升了 5.3 分,ToolcallFormatIFBench 提升了 2.8 分。
这数据看着确实漂亮。但老实讲,现在的大模型圈,大家都有点“榜单疲劳”了。你是 SOTA,他是 SOTA,到底谁是真正的 SOTA?
这就不得不提技术细节里的一个亮点:preserve_thinking。
这次 API 支持“保留思考过程”。这意味着在多轮对话里,模型能记住之前的推理逻辑。对于复杂的 Agent 任务,这简直是救命稻草——毕竟,谁也不想跟一个记性只有 7 秒的 AI 聊天。
同行是冤家:Kimi 的“偷家”战术
Qwen 这边刚发完喜报,评论区立马有人泼了盆冷水。
一位眼尖的用户指出,同一天发布的 Kimi K2.6,才是真正的“价格屠夫”。
咱们来算笔账:
- Qwen3.6-Max-Preview:输入 $1.3 / 输出 $7.8。
- Kimi K2.6:输入 $0.95 / 输出 $4.0。
这差价,Kimi 直接便宜了快一半。对于每天跑大量 Token 的开发者来说,这可不是小数目。
更要命的是,在 Qwen 引以为傲的两个核心编程榜单上,Kimi 竟然还反超了一点点:
Qwen: Terminal-Bench 2.0 (65.4), SWE-Bench Pro (57.3)
Kimi: Terminal-Bench 2.0 (66.8), SWE-Bench Pro (58.6)
虽然差距不大,但这让 Qwen 的“榜首”含金量多少有点尴尬。你说你是最强,结果隔壁家更便宜、跑分还更高?
这就好比考完试大家都说自己考砸了,结果成绩一出来,那个平时低调的同学不仅分比你高,补习费还比你便宜。
闭源涨价:开源精神的消逝?
除了价格战,评论区里还有一种声音让人深思。
有用户直言不讳:“现在的套路就是先免费开源把名声打出去,然后闭源涨价。”
Qwen3.6-Max-Preview 这次是闭源的托管模型(Proprietary Model),只能在阿里云 Model Studio 上调用。
这事儿引发了不少老用户的抱怨。一位开发者感慨道:
“讽刺的是,Max-Preview 是闭源的。真正重要的 Qwen 模型,其实是那些能在本地运行的开放权重版本。我在双路 A4000 上跑 32B 和 72B,虽然跟 Max 有差距,但差距在缩小。”
还有人指出,中国厂商现在的趋势就是:闭源化 + 价格上浮。有时候涨幅甚至高达 100%。
这不禁让人怀念起那个“开源万岁”的年代。毕竟,如果有一天没人发布开放权重了,普通人可能连算力自由都没了。
别只盯着 Opus 4.5
还有一个槽点,关于“对标”。
Qwen 在技术报告中对比的是 Opus 4.5。但圈内人都知道,Opus 4.6 早就出了,甚至 4.7 也已经在测试中。
“拿新模型跟旧版 Opus 比,这操作多少有点讨巧了。”
虽然官方解释说这是预览版,还在迭代,但开发者对“对标”的期待值显然更高。毕竟,你要做的是世界第一,而不是“比去年的世界第一强”。
不过,也有用户表示,基准测试是一回事,实际体验是另一回事。
“我试过 GLM 5.1,有些 Opus 做不到的事它能做。基准测试不代表一切,现实表现才是硬道理。”
写在最后
Qwen3.6-Max-Preview 很强吗?强。
它是最好的选择吗?不一定。
对于追求极致性价比的开发者,Kimi K2.6 可能是更香的选择;对于执着于数据隐私和本地部署的极客,开源的 72B 版本才是归宿。
大模型这场仗,打到 2026 年,早就不是单纯的“参数竞赛”了。价格、生态、开放性,甚至是一次 API 的响应速度,都可能成为压死骆驼的最后一根稻草。
至于你是选 Qwen 的“Max”体验,还是 Kimi 的“Max”性价比?
这就看你手里的预算,和你的代码到底有多难写了。
【锐评】:榜单屠榜虽好,但被竞品用更低价格、更高分数“骑脸输出”,这波 Max 发布多少有点给他人做嫁衣的尴尬。
参考链接:
https://qwen.ai/blog?id=qwen3.6-max-preview