参数大就是王道?这个常识在今天被阿里Qwen团队狠狠撕开了一道口子。
就在刚刚,Qwen发布了最新的Qwen3.6-27B模型。说实话,看到基准测试结果的时候,我反复确认了两遍数据:一个仅有270亿参数的Dense模型,竟然在编程能力上,干翻了自家那个拥有3970亿参数的庞然大物——Qwen3.5-397B-A17B。
这不仅是以小博大,简直是一场“参数降维打击”。
旗舰级代码能力,不再是大模型的专属
以前我们总觉得,要想获得顶级的代码生成能力,必须得是千亿级参数的大家伙,或者乖乖掏钱买API。
Qwen3.6-27B打破了这个迷信。
官方直接把话撂这儿了:在所有主流的智能体编程基准测试中,27B模型全面超越了自家的397B前辈。这意味着什么?意味着你不需要动辄几张A100显卡,不需要昂贵的推理成本,就能获得旗舰级的写代码体验。
Qwen团队在博客里说得很直白:
Qwen3.6-27B demonstrates that a well-trained dense model can surpass much larger predecessors on the tasks that matter most for developers.
这不仅是技术的胜利,更是对“暴力美学”的一种嘲讽。模型小了,反而更聪明了,这事儿怎么想都觉得有点魔幻。
你的MacBook,可能比服务器还能打
最有意思的部分来了。
通常这种级别的模型发布,普通用户也就看看热闹,毕竟本地跑不起来。但Qwen3.6-27B这次明显是冲着“民主化”来的。
知名技术博主Simon Willison第一时间做了测试。他在一台M5 Pro芯片、128GB内存的Mac上跑了量化后的模型(仅16.8GB)。
结果相当惊人:
Reading: 20 tokens, 0.4s, 54.32 tokens/s
Generation: 4,444 tokens, 2min 53s, 25.57 tokens/s
每秒生成25.57个Token,这在本地推理里已经相当能打。更关键的是,它根本没吃满内存,实际上只需要约20GB。
甚至有开发者指出,这玩意儿理论上能塞进一张24GB显存的3090显卡里。以前我们说“显卡杀手”,现在看,Qwen这是要把“显卡门槛”踩在脚下摩擦。
评论区里有人已经开始狂欢了:
This is getting very close to fit a single 3090 with 24gb VRAM :)
这就意味着,你花几千块攒的机器,现在也能跑出以前云端才有的代码能力。这种“获得感”,是API调用给不了的。
闭源巨头的护城河,还剩多宽?
说实话,看到开源模型这么猛,最慌的应该是OpenAI和Anthropic吧?
虽然Qwen官方还是很谦虚,说自己是“similar (yet below)”(相似但略逊),但社区里的风向已经变了。
一位开发者在评论区直言:
What competitive advantage does OpenAI/Anthropic has when companies like Qwen/Minimax/etc are open sourcing models that shows similar benchmark results?
这问题问得很扎心。当开源模型的性能逼近闭源,价格却只是对方的一个零头,闭源巨头的护城河到底还剩什么?
还有用户现身说法,表示自己一直在M4 MBP上跑Qwen 3.6 35B和Gemma 4 26B:
while it’s no Opus, it does 95% of what I need which is already crazy since everything runs fully local.
“它不是Opus,但它能搞定我95%的需求。”
这就很尴尬了。为了那最后5%的极致体验,你需要支付几百倍的溢价。老实讲,对于大多数开发者来说,这笔账怎么算都不划算。
别急着吹,翻车的也不少
当然,咱们也不能光捡好听的说。本地模型爽是爽,但坑依然存在。
有位老哥就泼了一盆冷水。他在M5 Pro上测试,结果每秒只有11个Token,跑了一个小时才写了几百行代码,最后还跑不通。
Opus and Sonnet in CC the same task successfully in a matter of minutes.
这说明了什么?本地推理的优化依然是个大坑。同样的模型,不同的运行环境(llama server, ollama, 原生API),体验可能天差地别。
而且,本地模型容易“走神”。正如评论里说的:
these local models still wander off in the wrong direction and fails. Something Opus almost never does for me anymore.
Opus那种“指哪打哪”的稳定性,目前依然是开源模型难以逾越的高墙。
但这并不妨碍Qwen3.6-27B成为一个里程碑。它让“旗舰级编程”从云端走进了你的硬盘。
Qwen这次还特意展示了让模型生成“骑自行车的鹈鹕”和“吃热狗的龙”的SVG代码。虽然Far from perfect(远未完美),但那种“我也能在本地玩这种花活”的快感,确实让人上头。
开源模型正在以惊人的速度吞噬世界。从397B到27B,参数变小了,但离我们更近了。
这或许才是AI普惠的真正开始。
【锐评】:参数缩水十几倍,性能反而逆袭,这不仅是技术胜利,更是给“堆参数党”的一记响亮耳光。
参考链接:
https://qwen.ai/blog?id=qwen3.6-27b