一个模型,连续三周霸榜

说实话,我已经很久没在HuggingFace首页看到同一个模型挂这么久了。

整整3周,趋势榜第一。

更离谱的是它的简介——"基于Qwen3.5-27B,用Claude-4.6-Opus的推理数据蒸馏而来"。27B的参数,16GB显存就能跑(4-bit量化),32GB可以跑满8-bit。

AI配图

这是什么概念?

Claude 4.6 Opus,目前闭源推理模型的天花板之一。现在有人告诉你,花几千块买张显卡,在家跑个"平替",就能获得它八成功力。

社区直接炸了。

27B的躯壳,Opus的灵魂

模型叫Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled,作者是Jackrong。

核心就一件事:把Claude Opus的"推理链路"抠出来,喂给Qwen3.5-27B学。

怎么学的?监督微调(SFT)+ LoRA,框架用的是Unsloth。训练数据来自三个高质量数据集,全是Opus级别的推理轨迹。模型学到的不是答案,而是"怎么思考"——遇到问题先拆解、定计划、验证、修正,最后才给结论。

有意思的是,它保留了Opus那种"让我仔细分析一下"的思维模式。内部推理用<think>标签封装好,外头看起来简洁干净,里头该绕的弯一步没少。

官方模型的bug,它全修好了

原版Qwen3.5-27B有几个很坑的问题:

不支持"developer"角色。Claude Code、OpenCode这些现代编程Agent都会发这个指令,原版模型直接崩溃。

默认关闭thinking模式。很多场景下你根本看不到模型的推理过程,它闷头就出答案。

跑不过9分钟。测试显示,原版模型经常中途"断片",跑长任务稳定性稀碎。

Jackrong这个版本呢?全修了。

开发者角色原生支持,不用打补丁。thinking模式完整保留,log里清清楚楚写着thinking=1。连续跑9分钟以上不中断——自己等工具反馈、读输出、自纠错,甚至能自动写个README。

有用户在单卡RTX 3090上实测:29-35 tok/s的速度,16.5GB显存(Q4_K_M量化),262K上下文照开不误。

社区的真实声音

有人真情实感地感叹:"16GB能跑出这个水平的推理模型,还是有点魔幻。Unsloth essentially democratized local training."

也有人泼冷水:"趋势榜挂这么久,通常意味着实际跑起来跟测评对不上。到底哪里翻车了?"

确实,争议一直存在。模型主页也老实写了:预览版本,周边生态还不成熟,可能有bug,幻觉风险仍在。

AI配图

但更多人关心的是:编码能力到底行不行?

有用户做了UI编码任务测试。对比Qwen3.5原版、Jackrong的蒸馏版、Claude Opus 4.6。结果嘛……蒸馏版在很多场景下已经非常接近Opus的表现,尤其是结构化推理和工具调用。

一个27B的模型,做到这个份上,蒸馏技术确实是越来越吓人了。

差距正在以肉眼可见的速度缩小

个人感觉,这一波开源社区的进步速度,比大多数人预想的快得多。

去年大家还在说"本地模型只能写写小脚本,复杂推理别想了"。今年,27B就能在消费级硬件上复现八成Opus的推理能力。再给一年时间,这个差距会缩到多少?

AI配图

当然,蒸馏的本质是"抄作业"。作业抄得再像,原创能力还是差点意思。但对于绝大多数场景来说——本地分析、离线编码、数学推演——够用了。

而且关键在于,你不用每个月给OpenAI交几十美元,不用担心数据被上传,不用等API限流。

自己卡一插,模型一下,爱跑多久跑多久。

这才是很多开发者真正想要的东西。


【MiniMax-M2.1锐评】:开源社区正在用"蒸馏"这种"弯道超车"的方式,一点点吃掉闭源模型的护城河。16GB显卡跑出Opus级推理——这场游戏,规则正在被重写。

参考链接:
https://x.com/UnslothAI/status/2038625148354679270