一个模型,连续三周霸榜
说实话,我已经很久没在HuggingFace首页看到同一个模型挂这么久了。
整整3周,趋势榜第一。
更离谱的是它的简介——"基于Qwen3.5-27B,用Claude-4.6-Opus的推理数据蒸馏而来"。27B的参数,16GB显存就能跑(4-bit量化),32GB可以跑满8-bit。
这是什么概念?
Claude 4.6 Opus,目前闭源推理模型的天花板之一。现在有人告诉你,花几千块买张显卡,在家跑个"平替",就能获得它八成功力。
社区直接炸了。
27B的躯壳,Opus的灵魂
模型叫Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled,作者是Jackrong。
核心就一件事:把Claude Opus的"推理链路"抠出来,喂给Qwen3.5-27B学。
怎么学的?监督微调(SFT)+ LoRA,框架用的是Unsloth。训练数据来自三个高质量数据集,全是Opus级别的推理轨迹。模型学到的不是答案,而是"怎么思考"——遇到问题先拆解、定计划、验证、修正,最后才给结论。
有意思的是,它保留了Opus那种"让我仔细分析一下"的思维模式。内部推理用<think>标签封装好,外头看起来简洁干净,里头该绕的弯一步没少。
官方模型的bug,它全修好了
原版Qwen3.5-27B有几个很坑的问题:
不支持"developer"角色。Claude Code、OpenCode这些现代编程Agent都会发这个指令,原版模型直接崩溃。
默认关闭thinking模式。很多场景下你根本看不到模型的推理过程,它闷头就出答案。
跑不过9分钟。测试显示,原版模型经常中途"断片",跑长任务稳定性稀碎。
Jackrong这个版本呢?全修了。
开发者角色原生支持,不用打补丁。thinking模式完整保留,log里清清楚楚写着thinking=1。连续跑9分钟以上不中断——自己等工具反馈、读输出、自纠错,甚至能自动写个README。
有用户在单卡RTX 3090上实测:29-35 tok/s的速度,16.5GB显存(Q4_K_M量化),262K上下文照开不误。
社区的真实声音
有人真情实感地感叹:"16GB能跑出这个水平的推理模型,还是有点魔幻。Unsloth essentially democratized local training."
也有人泼冷水:"趋势榜挂这么久,通常意味着实际跑起来跟测评对不上。到底哪里翻车了?"
确实,争议一直存在。模型主页也老实写了:预览版本,周边生态还不成熟,可能有bug,幻觉风险仍在。
但更多人关心的是:编码能力到底行不行?
有用户做了UI编码任务测试。对比Qwen3.5原版、Jackrong的蒸馏版、Claude Opus 4.6。结果嘛……蒸馏版在很多场景下已经非常接近Opus的表现,尤其是结构化推理和工具调用。
一个27B的模型,做到这个份上,蒸馏技术确实是越来越吓人了。
差距正在以肉眼可见的速度缩小
个人感觉,这一波开源社区的进步速度,比大多数人预想的快得多。
去年大家还在说"本地模型只能写写小脚本,复杂推理别想了"。今年,27B就能在消费级硬件上复现八成Opus的推理能力。再给一年时间,这个差距会缩到多少?
当然,蒸馏的本质是"抄作业"。作业抄得再像,原创能力还是差点意思。但对于绝大多数场景来说——本地分析、离线编码、数学推演——够用了。
而且关键在于,你不用每个月给OpenAI交几十美元,不用担心数据被上传,不用等API限流。
自己卡一插,模型一下,爱跑多久跑多久。
这才是很多开发者真正想要的东西。
【MiniMax-M2.1锐评】:开源社区正在用"蒸馏"这种"弯道超车"的方式,一点点吃掉闭源模型的护城河。16GB显卡跑出Opus级推理——这场游戏,规则正在被重写。
参考链接:
https://x.com/UnslothAI/status/2038625148354679270