15% 到 47%。

这不是股价的涨幅,也不是彩票的中奖率,而是一个只有 0.6B 参数的“小”模型,在数学推理能力上完成的暴力跃升。

更让人坐不住的是,这个成绩直接追平了官方同尺寸的 Qwen3 推理模型

没有几千张 H100,也没有神秘的千亿参数,靠的是一行行“手搓”代码。

这一切,发生在刚刚过去的这个周末。## 周末搞出个大新闻

Sebastian Raschka,这位《Build a Large Language Model (From Scratch)》的畅销书作者,这周末几乎闭门谢客。

他在干什么?

AI配图

他在死磕新书《Build A Reasoning Model (From Scratch)》的第 6 章

这一章的主题硬核到让人头皮发麻:**从零开始实现带有可验证奖励的强化学习(GRPO)。**这不是简单的调包调用,而是把 GRPO 的每一个步骤——优势、奖励、对数概率、损失——全部拆开,用代码一步步重写一遍。

"I just finished it this weekend, and I'd say it is the best (or at least my favorite) chapter yet!"

Raschka 自己都忍不住在 X(推特)上凡尔赛了一把,称这是他最喜欢的一章。## 暴力提升:从15%到47%

为什么这一章这么重要?

因为数据不会说谎。

Raschka 拿着一个 0.6B 的基础模型,在 MATH 训练集的 12k 个例子上,用这套自己手写的 GRPO 算法跑了一遍。

结果炸裂。

模型在 MATH-500 测试集上的准确率,直接从 15% 飙升到了 47%

要知道,MATH 数据集可是公认的“硬骨头”,里面全是高难度的数学竞赛题。47% 的准确率,意味着什么?

意味着这个“手搓”出来的小模型,其推理能力已经和官方同尺寸的 Qwen3 推理模型不相上下。

这就是算法的力量,也是“从零开始”的魅力。

拆解GRPO:拒绝黑盒

AI配图

现在的 AI 圈子太喜欢讲“大力出奇迹”了。

好像参数不够大,数据不够多,就别谈推理。

但 Raschka 的做法完全不同。

他的核心理念很简单:**要想真正理解一个东西,就得自己动手造一个。**在这一章里,他没有使用任何封装好的“黑盒”工具,而是把 GRPO 算法赤裸裸地展示给读者看。

你可以看到代码是如何计算优势的,如何分配奖励的,又是如何通过损失函数反向传播的。

这不仅仅是训练模型,更是在解剖模型的“大脑”

而且,这套代码不仅支持单机跑,还附带了多 GPU 并行运行的脚本。

不管你是想研究原理,还是想上实战,代码都给你准备好了。

"The code notebook is already available on GitHub."GitHub 链接已经挂出来了,想动手的可以去捡宝了:
github.com/rasbt/reasonin...

不仅是大,更是聪明

这其实揭示了一个被很多人忽略的趋势:推理能力,不完全等于模型规模。

AI配图

Raschka 的新书《Build A Reasoning Model (From Scratch)》整本都在讲这件事。

你要学的,不仅仅是堆参数。

书里涵盖了构建推理模型的全套 pipeline:

  • 如何实现核心推理改进?
  • 如何不用更新权重就能提升推理?
  • 如何用强化学习把计算器、搜索工具“塞”进模型里?
  • 如何用蒸馏技术,让小模型学会大模型的“思考方式”?现在的顶尖模型,比如 Grok 4 和 GPT-5,之所以强,就是因为它们把这种多步推理的能力玩明白了。

它们不是在瞎猜,而是在一步步拆解问题,像做数学题一样写出“解题步骤”。

Raschka 做的,就是把这种“神技”平民化,让你也能在自己的实验室里复现出来。

下一步:更稳,更强

第 6 章虽然写完了,但故事还没完。

Raschka 透露,下一章会带来更多骚操作

他会介绍额外的技巧和窍门,专门用来优化 GRPO 算法。目标很明确:让训练过程更稳定,让模型表现更好。

对于开发者来说,这比任何营销口号都实在。

"The next chapter will introduce additional tips and tricks to improve the GRPO algorithm for better and more stable training behavior."

目前,这一章的内容很快就会上线到书的早期访问版本。如果你不想等实体书,可以先去这里尝鲜:
mng.bz/Nwr7

在这个动辄千亿参数的时代,有人选择仰望星空,堆砌算力;也有人选择脚踏实地,从代码的每一行里抠出性能的提升。

显然,Raschka 属于后者。

而且,他证明了后者也能赢。

参考链接:
https://x.com/rasbt/status/2012897755916579278