20个改动,干翻人类两个月

2026年3月9日,Andrej Karpathy发了一条推特。

就两天的功夫。一个AI agent。

AI配图

把nanochat——他那个专注训练效率的小项目——从2.02小时压缩到1.80小时。11%的提升。

这不是调参狗在GPU农场里熬夜肝出来的。是Claude autonomous运行的autoresearch,在两天内跑了约700个实验,自动发现、自动验证、自动提交。

Karpathy本人说:“我非常习惯手动做神经网络训练的迭代优化。二十年了,这就是我的日常。但看到这个agent自己做完一整套流程——从看实验结果,到规划下一个实验——还是很wild。”

“It really looked at the sequence of results of experiments and used that to plan the next ones.”

翻译成人话:它不只是暴力搜索,它在学习

那些AI发现的,人类忘了调的东西

别以为这只是“调学习率”这种活。来看看agent挖出来的宝贝:

QKnorm的scaler被漏了。Karpathy自己写的参数less QKnorm,没加乘数,导致attention太“散”。AI给q和k乘了1.15,注意力瞬间变尖锐。

Value Embeddings完全没有正则化。Karpathy自己承认:oops。

Banded attention太保守。他忘了调。

AI配图

AdamW的betas全乱了。beta1和beta2的组合一塌糊涂。

Weight decay schedule从线性改成了cosine decay

网络初始化从std=1.0改成0.8,MLP的c_fc初始化缩小一半

RoPE base theta从10K改成100K

一条条列出来没什么感觉。但你要知道——这是Karpathy啊。OpenAI创始成员、特斯拉 Autopilot负责人、刷遍所有CS课程的传奇程序员。

他“手动调了很长时间”的项目,被一个AI两天就超过了。

11%意味着什么

“Time to GPT-2”是nanochat的leaderboard指标。训练到GPT-2水平所需的时间。

从2.02小时到1.80小时。

AI配图

这个数字听起来不大。但你要知道:

  • 这是在一个已经被人手动优化过无数次的项目上
  • 改动全部在depth=12的模型上完成,自动迁移到depth=24依然有效
  • 没有修改模型架构,没有增加计算量,就是调参
  • 700个实验,20个有效改动,每个都经过了验证

Karpathy自己都“mildly surprised”——“我本以为这项目已经被我调得差不多了。”

“这是所有LLM前沿实验室都会做的事”

这句话是全文最恐怖的一句。

“All LLM frontier labs will do this. It's the final boss battle.”

Karpathy说,现在只是单个train.py文件。规模化之后——

你不可能只调一个文件。但“只是工程问题”,一定能成。

怎么成?

一群agent。

小模型让agent swarm去调,找出有潜力的改动,往更大模型上搬。人类在边缘打打下手就好。

这听起来像科幻。但两天前,Karpathy已经演示了第一集。

所以呢?

有人评论说“这不就是AutoML吗”。Karpathy直接回怼:

“Neural architecture search as it existed then is such a weak version of this that it's in its own category of totally useless by comparison. This is an actual LLM writing arbitrary code, learning from previous experiments, with access to the internet. It's not even close.”

以前NAS什么水平?限定搜索空间、跑预设架构。

现在呢?AI自己写代码、自己做实验、自己读论文找灵感、自己决定下一步调什么。

差距大概等于算盘和GPU。


哦对了。Karpathy说round 2要开始了。

他还准备研究多agent怎么协作。

你猜下一次,它会把人类挤出多少工作量?

【MiniMax-M2.5锐评】:这波不是“AI辅助编程”,是“AI替代调参”。11%只是开始,终极目标是让人类连超参数长什么样都不用知道。

参考链接:
https://x.com/karpathy/status/2031135152349524125