如果你还觉得 AI 的进步全靠堆显卡、堆参数,那你可能真得更新一下认知了。

真正的进化,往往发生在模型生成答案的那一瞬间

AI配图

就在刚刚,一本名为《Build A Reasoning Model (From Scratch)》的技术书,迎来了它的第五章更新。

作者 Sebastian Raschka,这位曾手把手教你从零写大模型的畅销书大神,这次把矛头对准了 LLM 最核心的能力——自我优化。## 300页的纯干货,终于来了

这不是一本凑字数的书。

目前的早期访问版本已经膨胀到了 300 页

刚刚发布的第五章,是全书承上启下的关键。它讲的是 LLM 如何在推理阶段进行扩展。

简单说,就是让模型在“动脑子”这件事上,花更多的时间。

Raschka 在推文里说,这一章终于把“推理时推理”这一部分收尾了,接下来的重头戏是——强化学习

"Here, we continue the inference-time scaling theme, but we move beyond self-consistency and voting."## 让 AI 学会自己“改作业”

以前我们怎么做?自我一致性,或者简单的投票。

现在呢?

Raschka 在书中实现了一个自我优化循环

模型生成一个答案,然后自己批判这个答案,接着根据批判去改进它。

AI配图

这不仅仅是代码实现,这是在模拟人类的思考过程。

写出来,检查,修改,再检查。

书中甚至实现了日志概率评分,这可是接下来强化学习章节的基石。

"I think that seeing it all in working code really helps with understanding how LLM reasoning methods work (versus just looking at the equations)."## 质疑没用,看疗效

评论区里有人质疑:这听起来很酷,但真能提升性能吗?有没有点现实的案例,别光整那些简单的代数题。

Raschka 的回答很干脆:DeepSeekMath-V2

那个模型展示了通过顺序迭代带来的显著提升。

虽然还是数学,但逻辑是通用的。

现在的代码 LLM,甚至大多数编码代理,其实都在用这套路子。

它们都在用这种“自我反思”的机制,来解决复杂的现实问题。> "I'd say most coding agents use this approach already"

不动权重,也能变聪明

这才是最反直觉的地方。

书里提到,你可以在不更新模型权重的情况下,大幅提升推理能力。

这就像是一个人,不需要做开颅手术,只需要改变思考习惯,就能变得更聪明。

Grok 4、GPT-5 这些顶尖模型,都已经集成了这些能力。

AI配图

而这本书的哲学很简单:想彻底搞懂它,你就得亲手从零造一个

从预训练模型开始,一步步加上推理能力,看着代码跑通,这才是硬核玩家的浪漫。

推理时扩展的时代已经来了。

下一个章节,就是更劲爆的强化学习。

你准备好从零开始了吗?

参考链接:
https://x.com/rasbt/status/2014341187008602162