4B参数硬刚千亿巨头！这个“小不点”在奥数题上教大模型做人

参数越大越聪明？

这大概是过去两年 AI 圈最根深蒂固的信条。

大家都盯着万亿参数的 GPT-4、Claude 3，或者动辄几百亿的巨无霸模型，仿佛没有几千亿个神经元，就不配谈逻辑推理。

但就在昨天，来自 CMU、Hugging Face 和 ETH Zurich 的研究团队，给这股参数崇拜泼了一盆冷水。

他们搞出了一个只有 40 亿（4B） 参数的小模型——QED-Nano。

别看它个头小，这玩意儿在国际数学奥林匹克（IMO）级别的证明题上，居然把好几个几百亿参数的大模型给按在地上摩擦。

甚至，在加上一点思考时间后，它的表现逼近了闭源的 Gemini 3 Pro，而成本只有后者的三分之一。

说实话，这剧情有点像《摔跤吧！爸爸》里的桥段：瘦小的主角，靠技巧和策略，干翻了体格庞大的对手。

谁说小模型不能干重活？

先来看看这个小不点的成绩单。

在名为 IMO-ProofBench 的硬核基准测试里，QED-Nano 拿到了 40% 的分数。

听起来不算高是吧？

但你要知道，它的对手是 Nomos-1（30B）和 Qwen3-235B（235B）。结果呢？

这个只有对手几十分之一大小的 QED-Nano，硬是比它们强，甚至在平均成绩上跑赢了 GPT-OSS-120B。

更夸张的是，当研究人员给 QED-Nano 配上 Agent 的脚手架，允许它多想一会儿（推理超过 150 万个 Token），它的分数直接飙升到 54%，这已经非常接近 Gemini 3 Pro 的水平了。

这就有意思了。

以前我们觉得，模型小就是脑容量小，想不出复杂的逻辑。但研究人员再次向我们展示了：

脑子不够大，可以用思考时间来凑。

而且，这招不仅管用，还特别省钱。

同样搞定一道难题，Gemini 3 Pro 的预估成本是 12.3 美元，而 QED-Nano 只要 4.0 美元。

三倍的成本差距，对于要大规模部署应用的企业来说，这诱惑力简直无法拒绝。

小模型凭什么能这么猛？

难道是有什么不为人知的黑科技？

其实，他们的配方简单粗暴，甚至有点“取巧”。

第一步，找个超级强的老师。

QED-Nano 的老师，是拥有 685B 参数 的巨无霸——DeepSeek-Math-V2。让爱因斯坦来教小学生。

研究团队让 DeepSeek-Math-V2 做了大量的奥数题，生成了 7500 个高质量的解题步骤。

然后，他们把这些学霸笔记拿过来，通过蒸馏技术，硬塞给了只有 4B 参数的 QED-Nano。

这就像是把一本厚厚的百科全书，浓缩成了一本只有核心考点的小册子。

但这还不够。光背笔记，小模型只会死记硬背，遇到没见过的题还是抓瞎。

这时候，第二步关键操作来了——强化学习（RL）。

考试神器：只要给分细，就能教得好

以前的 AI 训练，大多是非黑即白的：答案对就是 1 分，错就是 0 分。

但在数学证明里，这种判分方式太粗糙了。你可能第一步推导对了，第二步算错了，直接给 0 分，模型根本不知道错哪了。

QED-Nano 的训练团队搞了个评分细则（Rubrics）。他们让 Gemini 3 Pro 当阅卷老师，针对每道题制定了详细的评分标准，从 0 分到 7 分不等。

比如，这一步“是否证明了不等式”得 1 分，那一步“是否应用了鸽巢原理”得 1 分。

这种细粒度的反馈，就像是一个耐心的家教，指着你的卷子说：“这一步思路对了，但这里符号抄错了，扣 1 分。”

有了这种密集的奖励信号，QED-Nano 就知道怎么一步步优化自己的推理链条，而不是在那儿瞎猫碰死耗子。

思考过载怎么办？学会“写摘要”

这里有个大坑。

既然要考奥数，推理链肯定特别长，动不动就几万、几十万个 Token。如果让模型一次性生成这么长的内容，训练的时候不仅显卡扛不住，模型自己也容易“晕车”，前面写着写着，后面就忘了。

为了解决这个问题，他们祭出了一套叫 “推理缓存” 的方法。

这招很聪明。它不要求模型一口气写完证明，而是把过程拆解成一个个小循环：

先写一段推理；
把这段推理总结成一个简短的“摘要”；
扔掉前面的推理，只保留摘要，基于摘要继续写下一段。就像我们在写长论文时，时不时写个“本章小结”，确保自己没跑偏。

这种方法让模型在训练时，既能处理超长距离的逻辑依赖，又不用把上下文窗口撑爆。

而且，这种“总结-再思考”的模式，天然就适合在测试时无限延展——只要你给它时间，它就能一直这么“滚雪球”地思考下去。

赢了比赛，输了优雅？

当然，QED-Nano 也不是完美的。

如果你仔细看它生成的证明，你会发现个有趣的现象：这孩子特别喜欢“硬算”。

在几何题里，人类高手可能会用几条巧妙的辅助线，三言两语就证出来了。但 QED-Nano 不，它更喜欢用暴力代数，或者坐标法，把几何题变成算术题，一顿猛算，最后算出结果。

这虽然能拿分，但不够优雅。

研究团队也承认，目前的模型还缺乏那种“灵光一现”的洞察力。它更像是一个勤奋但缺乏天赋的做题家，靠大量的计算和严谨的逻辑堆砌，硬生生把题给解出来。

但这又有什么关系呢？

在工程世界里，优雅是奢侈品，能用、便宜、好用 才是硬通货。

小模型的逆袭时刻

QED-Nano 的出现，其实给行业提了个醒。

大家都在卷参数、卷算力，好像不做个万亿模型就不好意思出门打招呼。但这个 4B 的小模型证明了：

通过高质量的数据蒸馏、精细的评分反馈，以及巧妙的推理架构，小模型完全可以在专业领域干掉大模型。

这对于开源社区来说，绝对是个大利好。

毕竟，不是谁都有钱去训练 685B 参数的怪兽，但在普通显卡上跑一跑 4B 模型，还是很有希望做到的。

参考链接：
https://x.com/_lewtun/status/2022966614283718852