2001年,Schmidhuber、Hochreiter和Bengio三位大佬曾联手给一种算法“判了死刑”。

他们断言:“随机猜测不能被视为一种合理的学习算法。”

道理很简单,从零开始随机猜一个十亿维度的参数向量,想让它的表现像ChatGPT一样?这概率比中彩票头奖还要低无数倍。那时候,有效解就像大海捞针,稀疏得让人绝望。

但MIT的Phillip Isola团队最近发现,时代变了

在大模型预训练之后,这句判词失效了。只要你有足够的算力去“猜”,哪怕是最笨的随机猜测,也能在下游任务上追平那些精心设计的强化学习算法。

AI配图

这听起来简直是在侮辱“调参”这门手艺,但数据不会撒谎。

从“大海捞针”到“遍地黄金”

以前我们训练小模型,那叫一个如履薄冰。

参数空间里,好解就像针一样难找,你必须用梯度下降这种“精密制导武器”,一步步小心翼翼地挪动,才有可能找到那个极小值点。

Isola团队把这种状态称为“Needle in a Haystack”(大海捞针)。

但现在的LLM不一样了。

研究人员发现,随着预训练规模的扩大,模型权重周围的有效解密度急剧上升。原本稀疏的“针”,变成了一大片茂密的“灌木丛”。

在这个被称作“Neural Thicket”(神经灌木丛)的区域里,你随便往哪个方向扔一块石头,大概率都能砸中一个能提升任务表现的参数配置。

预训练,实际上把模型拖进了一个“富矿区”。

这时候,你还需要复杂的梯度下降吗?可能真不需要了。

一个“暴力美学”的算法诞生了

基于这个发现,MIT团队提出了一个简单到令人发指的算法:RandOpt

它的逻辑甚至不需要数学公式就能看懂:

  1. 在预训练权重周围,随机生成N个参数扰动。
  2. 在训练数据上跑一遍,挑出表现最好的K个。
  3. 推理时,让这K个模型投票,少数服从多数。

没错,这就是把“猜和检查”这种小学数学方法用到了极致。没有反向传播,没有复杂的优化器,只有暴力并行计算。

老实讲,这方法看着就很“土”。

在深度学习圈子里,大家都在卷架构、卷损失函数、卷优化策略,突然有人跳出来说“我靠随机猜也能行”,这感觉就像大家都还在苦练内功,有人直接掏出了一把加特林。

竟然真的能打赢PPO?

如果只是理论可行,那顶多算个趣闻。但RandOpt在实测中表现出来的战斗力,着实让人吃了一惊。

研究团队在Qwen、Llama、OLMo等主流模型上做了实验,涵盖了数学、代码、写作、化学等多个领域。

结果非常直观:在同等算力预算下,RandOpt(K=50)的表现竟然能和目前最主流的PPO、GRPO打得有来有回,甚至在部分任务上还略胜一筹。

图注:RandOpt与基线方法的性能对比

看这张图,圆圈大小代表模型规模。你会发现,那个代表RandOpt的红点,经常出现在图表的右上角。

更有意思的是时间成本。

传统的PPO、GRPO需要几百次的序列更新步骤,耗时漫长。而RandOpt完全并行,理论上在无限算力下,训练时间约等于一次推理的时间

团队在200块GH200集群上跑了个Demo,训练OLMo-3-7B,只用了3.2分钟就达到了70%的准确率。

这就是“灌木丛” regime的红利——既然好解到处都是,何必还要小心翼翼地走迷宫?

“坏掉的时钟”也能对两次?

RandOpt有没有缺点?当然有。

它的推理成本很高,因为要K个模型集成,计算量翻倍。虽然可以通过蒸馏来缓解,但这又绕回了训练的老路。

而且,研究人员也坦诚,部分性能提升来自于格式修正,而非纯粹的推理能力提升。但这并不掩盖核心发现的震撼性。

Isola自己在推特上感慨,这是一个“坏掉的时钟一天也能对两次”的项目。

以前随机猜测是个坏主意,但只要你坚持这个想法,等到世界变了(模型变大了),它突然就变成了一个好主意。

AI配图

这让我想起物理学里的“相变”。当模型规模突破某个临界点,解决问题的逻辑发生了质的改变。

以前我们需要精巧的搜索算法,是因为好解太稀缺;现在好解遍地都是,我们缺的不是算法,而是算力和并行度

预训练才是真正的“上帝”

这项研究其实揭示了一个更深层的事实:后训练可能被高估了,预训练才是那个真正的“上帝”。

一旦预训练把模型带到了“灌木丛”里,怎么走都容易找到解。不管是PPO、GRPO,还是最笨的RandOpt,本质上都是在收割预训练留下的红利。

这也解释了为什么最近很多简单的后训练方法(比如拒绝采样)效果能媲美复杂的RL——因为大家都在同一个“富矿”里挖,工具的精良程度反而没那么重要了。

AI配图

当然,RandOpt目前还只是一个探针,用来证明“解很密”这个事实。它能不能取代工业界的RL流程,还得看算力成本这笔账怎么算。

但无论如何,MIT的这项研究给整个AI社区泼了一盆冷水,也点燃了一把火。

它告诉我们,在大模型的参数空间里,也许我们早就不是在“大海捞针”,而是在“麦田里拾穗”

至于下一步是该磨快镰刀,还是该买更大的收割机,那就是另一个故事了。

【glm-5锐评】:当“瞎猜”都能追平RL,说明预训练已经把模型宠坏了,剩下的后训练不过是“拼运气”的捡漏游戏。

参考链接:
https://x.com/phillip_isola/status/2032483868603822402