0.6B模型硬刚Qwen3？这位大神把“推理”彻底拆解了

15% 到 47%。

这不是股价的涨幅，也不是彩票的中奖率，而是一个只有 0.6B 参数的“小”模型，在数学推理能力上完成的暴力跃升。

更让人坐不住的是，这个成绩直接追平了官方同尺寸的 Qwen3 推理模型。

没有几千张 H100，也没有神秘的千亿参数，靠的是一行行“手搓”代码。

这一切，发生在刚刚过去的这个周末。## 周末搞出个大新闻

Sebastian Raschka，这位《Build a Large Language Model (From Scratch)》的畅销书作者，这周末几乎闭门谢客。

他在干什么？

AI配图

他在死磕新书《Build A Reasoning Model (From Scratch)》的第 6 章。

这一章的主题硬核到让人头皮发麻：**从零开始实现带有可验证奖励的强化学习（GRPO）。**这不是简单的调包调用，而是把 GRPO 的每一个步骤——优势、奖励、对数概率、损失——全部拆开，用代码一步步重写一遍。

"I just finished it this weekend, and I'd say it is the best (or at least my favorite) chapter yet!"

Raschka 自己都忍不住在 X（推特）上凡尔赛了一把，称这是他最喜欢的一章。## 暴力提升：从15%到47%

为什么这一章这么重要？

因为数据不会说谎。

Raschka 拿着一个 0.6B 的基础模型，在 MATH 训练集的 12k 个例子上，用这套自己手写的 GRPO 算法跑了一遍。

结果炸裂。

模型在 MATH-500 测试集上的准确率，直接从 15% 飙升到了 47%。

要知道，MATH 数据集可是公认的“硬骨头”，里面全是高难度的数学竞赛题。47% 的准确率，意味着什么？

意味着这个“手搓”出来的小模型，其推理能力已经和官方同尺寸的 Qwen3 推理模型不相上下。

这就是算法的力量，也是“从零开始”的魅力。

拆解GRPO：拒绝黑盒

AI配图

现在的 AI 圈子太喜欢讲“大力出奇迹”了。

好像参数不够大，数据不够多，就别谈推理。

但 Raschka 的做法完全不同。

他的核心理念很简单：**要想真正理解一个东西，就得自己动手造一个。**在这一章里，他没有使用任何封装好的“黑盒”工具，而是把 GRPO 算法赤裸裸地展示给读者看。

你可以看到代码是如何计算优势的，如何分配奖励的，又是如何通过损失函数反向传播的。

这不仅仅是训练模型，更是在解剖模型的“大脑”。

而且，这套代码不仅支持单机跑，还附带了多 GPU 并行运行的脚本。

不管你是想研究原理，还是想上实战，代码都给你准备好了。

"The code notebook is already available on GitHub."GitHub 链接已经挂出来了，想动手的可以去捡宝了：
github.com/rasbt/reasonin...

不仅是大，更是聪明

这其实揭示了一个被很多人忽略的趋势：推理能力，不完全等于模型规模。

AI配图

Raschka 的新书《Build A Reasoning Model (From Scratch)》整本都在讲这件事。

你要学的，不仅仅是堆参数。

书里涵盖了构建推理模型的全套 pipeline：

如何实现核心推理改进？
如何不用更新权重就能提升推理？
如何用强化学习把计算器、搜索工具“塞”进模型里？
如何用蒸馏技术，让小模型学会大模型的“思考方式”？现在的顶尖模型，比如 Grok 4 和 GPT-5，之所以强，就是因为它们把这种多步推理的能力玩明白了。

它们不是在瞎猜，而是在一步步拆解问题，像做数学题一样写出“解题步骤”。

Raschka 做的，就是把这种“神技”平民化，让你也能在自己的实验室里复现出来。

下一步：更稳，更强

第 6 章虽然写完了，但故事还没完。

Raschka 透露，下一章会带来更多骚操作。

他会介绍额外的技巧和窍门，专门用来优化 GRPO 算法。目标很明确：让训练过程更稳定，让模型表现更好。

对于开发者来说，这比任何营销口号都实在。

"The next chapter will introduce additional tips and tricks to improve the GRPO algorithm for better and more stable training behavior."

目前，这一章的内容很快就会上线到书的早期访问版本。如果你不想等实体书，可以先去这里尝鲜：
mng.bz/Nwr7

在这个动辄千亿参数的时代，有人选择仰望星空，堆砌算力；也有人选择脚踏实地，从代码的每一行里抠出性能的提升。

显然，Raschka 属于后者。

而且，他证明了后者也能赢。

参考链接：
https://x.com/rasbt/status/2012897755916579278