如果你还觉得 AI 的进步全靠堆显卡、堆参数,那你可能真得更新一下认知了。
真正的进化,往往发生在模型生成答案的那一瞬间。
就在刚刚,一本名为《Build A Reasoning Model (From Scratch)》的技术书,迎来了它的第五章更新。
作者 Sebastian Raschka,这位曾手把手教你从零写大模型的畅销书大神,这次把矛头对准了 LLM 最核心的能力——自我优化。## 300页的纯干货,终于来了
这不是一本凑字数的书。
目前的早期访问版本已经膨胀到了 300 页。
刚刚发布的第五章,是全书承上启下的关键。它讲的是 LLM 如何在推理阶段进行扩展。
简单说,就是让模型在“动脑子”这件事上,花更多的时间。
Raschka 在推文里说,这一章终于把“推理时推理”这一部分收尾了,接下来的重头戏是——强化学习。
"Here, we continue the inference-time scaling theme, but we move beyond self-consistency and voting."## 让 AI 学会自己“改作业”
以前我们怎么做?自我一致性,或者简单的投票。
现在呢?
Raschka 在书中实现了一个自我优化循环。
模型生成一个答案,然后自己批判这个答案,接着根据批判去改进它。
这不仅仅是代码实现,这是在模拟人类的思考过程。
写出来,检查,修改,再检查。
书中甚至实现了日志概率评分,这可是接下来强化学习章节的基石。
"I think that seeing it all in working code really helps with understanding how LLM reasoning methods work (versus just looking at the equations)."## 质疑没用,看疗效
评论区里有人质疑:这听起来很酷,但真能提升性能吗?有没有点现实的案例,别光整那些简单的代数题。
Raschka 的回答很干脆:DeepSeekMath-V2。
那个模型展示了通过顺序迭代带来的显著提升。
虽然还是数学,但逻辑是通用的。
现在的代码 LLM,甚至大多数编码代理,其实都在用这套路子。
它们都在用这种“自我反思”的机制,来解决复杂的现实问题。> "I'd say most coding agents use this approach already"
不动权重,也能变聪明
这才是最反直觉的地方。
书里提到,你可以在不更新模型权重的情况下,大幅提升推理能力。
这就像是一个人,不需要做开颅手术,只需要改变思考习惯,就能变得更聪明。
Grok 4、GPT-5 这些顶尖模型,都已经集成了这些能力。
而这本书的哲学很简单:想彻底搞懂它,你就得亲手从零造一个。
从预训练模型开始,一步步加上推理能力,看着代码跑通,这才是硬核玩家的浪漫。
推理时扩展的时代已经来了。
下一个章节,就是更劲爆的强化学习。
你准备好从零开始了吗?
参考链接:
https://x.com/rasbt/status/2014341187008602162