参数越大越聪明?
这大概是过去两年 AI 圈最根深蒂固的信条。
大家都盯着万亿参数的 GPT-4、Claude 3,或者动辄几百亿的巨无霸模型,仿佛没有几千亿个神经元,就不配谈逻辑推理。
但就在昨天,来自 CMU、Hugging Face 和 ETH Zurich 的研究团队,给这股参数崇拜泼了一盆冷水。
他们搞出了一个只有 40 亿(4B) 参数的小模型——QED-Nano。
别看它个头小,这玩意儿在国际数学奥林匹克(IMO)级别的证明题上,居然把好几个几百亿参数的大模型给按在地上摩擦。
甚至,在加上一点思考时间后,它的表现逼近了闭源的 Gemini 3 Pro,而成本只有后者的三分之一。
说实话,这剧情有点像《摔跤吧!爸爸》里的桥段:瘦小的主角,靠技巧和策略,干翻了体格庞大的对手。
谁说小模型不能干重活?
先来看看这个小不点的成绩单。
在名为 IMO-ProofBench 的硬核基准测试里,QED-Nano 拿到了 40% 的分数。
听起来不算高是吧?
但你要知道,它的对手是 Nomos-1(30B)和 Qwen3-235B(235B)。结果呢?
这个只有对手几十分之一大小的 QED-Nano,硬是比它们强,甚至在平均成绩上跑赢了 GPT-OSS-120B。
更夸张的是,当研究人员给 QED-Nano 配上 Agent 的脚手架,允许它多想一会儿(推理超过 150 万个 Token),它的分数直接飙升到 54%,这已经非常接近 Gemini 3 Pro 的水平了。
这就有意思了。
以前我们觉得,模型小就是脑容量小,想不出复杂的逻辑。但研究人员再次向我们展示了:
脑子不够大,可以用思考时间来凑。
而且,这招不仅管用,还特别省钱。
同样搞定一道难题,Gemini 3 Pro 的预估成本是 12.3 美元,而 QED-Nano 只要 4.0 美元。
三倍的成本差距,对于要大规模部署应用的企业来说,这诱惑力简直无法拒绝。
小模型凭什么能这么猛?
难道是有什么不为人知的黑科技?
其实,他们的配方简单粗暴,甚至有点“取巧”。
第一步,找个超级强的老师。
QED-Nano 的老师,是拥有 685B 参数 的巨无霸——DeepSeek-Math-V2。让爱因斯坦来教小学生。
研究团队让 DeepSeek-Math-V2 做了大量的奥数题,生成了 7500 个高质量的解题步骤。
然后,他们把这些学霸笔记拿过来,通过蒸馏技术,硬塞给了只有 4B 参数的 QED-Nano。
这就像是把一本厚厚的百科全书,浓缩成了一本只有核心考点的小册子。
但这还不够。光背笔记,小模型只会死记硬背,遇到没见过的题还是抓瞎。
这时候,第二步关键操作来了——强化学习(RL)。
考试神器:只要给分细,就能教得好
以前的 AI 训练,大多是非黑即白的:答案对就是 1 分,错就是 0 分。
但在数学证明里,这种判分方式太粗糙了。你可能第一步推导对了,第二步算错了,直接给 0 分,模型根本不知道错哪了。
QED-Nano 的训练团队搞了个评分细则(Rubrics)。他们让 Gemini 3 Pro 当阅卷老师,针对每道题制定了详细的评分标准,从 0 分到 7 分不等。
比如,这一步“是否证明了不等式”得 1 分,那一步“是否应用了鸽巢原理”得 1 分。
这种细粒度的反馈,就像是一个耐心的家教,指着你的卷子说:“这一步思路对了,但这里符号抄错了,扣 1 分。”
有了这种密集的奖励信号,QED-Nano 就知道怎么一步步优化自己的推理链条,而不是在那儿瞎猫碰死耗子。
思考过载怎么办?学会“写摘要”
这里有个大坑。
既然要考奥数,推理链肯定特别长,动不动就几万、几十万个 Token。如果让模型一次性生成这么长的内容,训练的时候不仅显卡扛不住,模型自己也容易“晕车”,前面写着写着,后面就忘了。
为了解决这个问题,他们祭出了一套叫 “推理缓存” 的方法。
这招很聪明。它不要求模型一口气写完证明,而是把过程拆解成一个个小循环:
- 先写一段推理;
- 把这段推理总结成一个简短的“摘要”;
- 扔掉前面的推理,只保留摘要,基于摘要继续写下一段。就像我们在写长论文时,时不时写个“本章小结”,确保自己没跑偏。
这种方法让模型在训练时,既能处理超长距离的逻辑依赖,又不用把上下文窗口撑爆。
而且,这种“总结-再思考”的模式,天然就适合在测试时无限延展——只要你给它时间,它就能一直这么“滚雪球”地思考下去。
赢了比赛,输了优雅?
当然,QED-Nano 也不是完美的。
如果你仔细看它生成的证明,你会发现个有趣的现象:这孩子特别喜欢“硬算”。
在几何题里,人类高手可能会用几条巧妙的辅助线,三言两语就证出来了。但 QED-Nano 不,它更喜欢用暴力代数,或者坐标法,把几何题变成算术题,一顿猛算,最后算出结果。
这虽然能拿分,但不够优雅。
研究团队也承认,目前的模型还缺乏那种“灵光一现”的洞察力。它更像是一个勤奋但缺乏天赋的做题家,靠大量的计算和严谨的逻辑堆砌,硬生生把题给解出来。
但这又有什么关系呢?
在工程世界里,优雅是奢侈品,能用、便宜、好用 才是硬通货。
小模型的逆袭时刻
QED-Nano 的出现,其实给行业提了个醒。
大家都在卷参数、卷算力,好像不做个万亿模型就不好意思出门打招呼。但这个 4B 的小模型证明了:
通过高质量的数据蒸馏、精细的评分反馈,以及巧妙的推理架构,小模型完全可以在专业领域干掉大模型。
这对于开源社区来说,绝对是个大利好。
毕竟,不是谁都有钱去训练 685B 参数的怪兽,但在普通显卡上跑一跑 4B 模型,还是很有希望做到的。
参考链接:
https://x.com/_lewtun/status/2022966614283718852