MIT新研究炸场：随机乱猜参数，效果竟然追平PPO？大模型训练这回真变“神经灌木丛”了

2001年，Schmidhuber、Hochreiter和Bengio三位大佬曾联手给一种算法“判了死刑”。

他们断言：“随机猜测不能被视为一种合理的学习算法。”

道理很简单，从零开始随机猜一个十亿维度的参数向量，想让它的表现像ChatGPT一样？这概率比中彩票头奖还要低无数倍。那时候，有效解就像大海捞针，稀疏得让人绝望。

但MIT的Phillip Isola团队最近发现，时代变了。

在大模型预训练之后，这句判词失效了。只要你有足够的算力去“猜”，哪怕是最笨的随机猜测，也能在下游任务上追平那些精心设计的强化学习算法。

AI配图

这听起来简直是在侮辱“调参”这门手艺，但数据不会撒谎。

从“大海捞针”到“遍地黄金”

以前我们训练小模型，那叫一个如履薄冰。

参数空间里，好解就像针一样难找，你必须用梯度下降这种“精密制导武器”，一步步小心翼翼地挪动，才有可能找到那个极小值点。

Isola团队把这种状态称为“Needle in a Haystack”（大海捞针）。

但现在的LLM不一样了。

研究人员发现，随着预训练规模的扩大，模型权重周围的有效解密度急剧上升。原本稀疏的“针”，变成了一大片茂密的“灌木丛”。

在这个被称作“Neural Thicket”（神经灌木丛）的区域里，你随便往哪个方向扔一块石头，大概率都能砸中一个能提升任务表现的参数配置。

预训练，实际上把模型拖进了一个“富矿区”。

这时候，你还需要复杂的梯度下降吗？可能真不需要了。

一个“暴力美学”的算法诞生了

基于这个发现，MIT团队提出了一个简单到令人发指的算法：RandOpt。

它的逻辑甚至不需要数学公式就能看懂：

猜：在预训练权重周围，随机生成N个参数扰动。
选：在训练数据上跑一遍，挑出表现最好的K个。
合：推理时，让这K个模型投票，少数服从多数。

没错，这就是把“猜和检查”这种小学数学方法用到了极致。没有反向传播，没有复杂的优化器，只有暴力并行计算。

老实讲，这方法看着就很“土”。

在深度学习圈子里，大家都在卷架构、卷损失函数、卷优化策略，突然有人跳出来说“我靠随机猜也能行”，这感觉就像大家都还在苦练内功，有人直接掏出了一把加特林。

竟然真的能打赢PPO？

如果只是理论可行，那顶多算个趣闻。但RandOpt在实测中表现出来的战斗力，着实让人吃了一惊。

研究团队在Qwen、Llama、OLMo等主流模型上做了实验，涵盖了数学、代码、写作、化学等多个领域。

结果非常直观：在同等算力预算下，RandOpt（K=50）的表现竟然能和目前最主流的PPO、GRPO打得有来有回，甚至在部分任务上还略胜一筹。

图注：RandOpt与基线方法的性能对比

看这张图，圆圈大小代表模型规模。你会发现，那个代表RandOpt的红点，经常出现在图表的右上角。

更有意思的是时间成本。

传统的PPO、GRPO需要几百次的序列更新步骤，耗时漫长。而RandOpt完全并行，理论上在无限算力下，训练时间约等于一次推理的时间。

团队在200块GH200集群上跑了个Demo，训练OLMo-3-7B，只用了3.2分钟就达到了70%的准确率。

这就是“灌木丛” regime的红利——既然好解到处都是，何必还要小心翼翼地走迷宫？

“坏掉的时钟”也能对两次？

RandOpt有没有缺点？当然有。

它的推理成本很高，因为要K个模型集成，计算量翻倍。虽然可以通过蒸馏来缓解，但这又绕回了训练的老路。

而且，研究人员也坦诚，部分性能提升来自于格式修正，而非纯粹的推理能力提升。但这并不掩盖核心发现的震撼性。

Isola自己在推特上感慨，这是一个“坏掉的时钟一天也能对两次”的项目。

以前随机猜测是个坏主意，但只要你坚持这个想法，等到世界变了（模型变大了），它突然就变成了一个好主意。

AI配图

这让我想起物理学里的“相变”。当模型规模突破某个临界点，解决问题的逻辑发生了质的改变。

以前我们需要精巧的搜索算法，是因为好解太稀缺；现在好解遍地都是，我们缺的不是算法，而是算力和并行度。

预训练才是真正的“上帝”

这项研究其实揭示了一个更深层的事实：后训练可能被高估了，预训练才是那个真正的“上帝”。

一旦预训练把模型带到了“灌木丛”里，怎么走都容易找到解。不管是PPO、GRPO，还是最笨的RandOpt，本质上都是在收割预训练留下的红利。

这也解释了为什么最近很多简单的后训练方法（比如拒绝采样）效果能媲美复杂的RL——因为大家都在同一个“富矿”里挖，工具的精良程度反而没那么重要了。

AI配图

当然，RandOpt目前还只是一个探针，用来证明“解很密”这个事实。它能不能取代工业界的RL流程，还得看算力成本这笔账怎么算。

但无论如何，MIT的这项研究给整个AI社区泼了一盆冷水，也点燃了一把火。

它告诉我们，在大模型的参数空间里，也许我们早就不是在“大海捞针”，而是在“麦田里拾穗”。

至于下一步是该磨快镰刀，还是该买更大的收割机，那就是另一个故事了。

【glm-5锐评】：当“瞎猜”都能追平RL，说明预训练已经把模型宠坏了，剩下的后训练不过是“拼运气”的捡漏游戏。

参考链接：
https://x.com/phillip_isola/status/2032483868603822402