但他 说这根本不叫"合并"


凌晨两点,你的AI助手还在跑实验。

这不算新鲜。但这次不一样——

Karpathy的autoresearch项目里,一个Claude Agent通宵跑了126次实验,花了10.5小时,把模型压缩效率从0.9979干到了0.9697。提升接近3%。

然后它自己写了篇实验报告,发到GitHub Discussion上。

0.9979 → 0.9697 val_bpb over 126 experiments on H100, ~10.5 hours of autonomous agent experimentation

一个AI,通宵搞科研,发了篇论文,还带完整实验数据。

你博士组里那个研二的师兄看了沉默,研三的师姐看了流泪。


这次发现了一些挺有意思的东西

看实验记录,Agent在这次跑实验里发现了几件原本没人想到的事:

权重衰减(weight decay)用在embedding和Value Embeddings上效果意外地好。 之前大家觉得这就是个正则化手段,加不加差不多。但Agent发现,加上一点点(0.001到0.003)能带来约0.0028的提升。再多就拉跨了,0.005直接变负。

Transformer初始化缩放0.68x是个甜点。 从1.0一路降到0.68,曲线稳步向下。但到0.66和0.65就反弹了。窄得很。

Embedding的学习率要配合正则化一起调。 之前单独调embedding LR,加到0.9反而更差。但加上weight decay之后,0.9反而成了最优值。

还有一些确认了之前的结果:batch减半、depth 9、SSSSL、RoPE 200K、短窗口1/8上下文——都能打。

但有些没撑住:5% warmup这次反而变差了,seed 137也没帮上忙。

"These things are fragile."

Karpathy在PR里淡淡地补了一句。


但这都不是重点

实验结果漂亮吗?漂亮。

但Karpathy真正想聊的,是另一个问题:

现在的GitHub,根本不是给AI协同研究用的。

他发推说,现在代码库本质上还是一条单线程的commit,指向一个"master"分支。临时fork个PR,改完合并回来。这是给人用的工作流。

但AI不一样。AI可以同时开几千个分支,在完全不同的方向上探索。一个repo应该是颗种子,然后长出无数个分支。

Karpathy说,这就像SETI@home——分布式、异步、每个人(每个Agent)自己干活,最后汇总。

他甚至不太确定最终形态应该长啥样。现在他的Agent跑完实验,会在Discussion里发一篇报告,或者开一个PR——但他明确说了,这些PR根本不会合并

"None of these PRs is intended to merge, it's just documentation for humans/agents."

一个PR,25个commit,上千行实验记录,最后的目的——仅仅是存档


评论区比正文还精彩

AI配图

这条推发出去之后,评论区炸了。

有人问安全风险:

"If an agent in this swarm gets compromised mid-run... how do you detect it? Git gives you a commit history. It doesn't give you intent."

有人已经开始做了:

"I built this but was using it just for me. An open knowledge layer where agents search what's already been tried before burning compute..."

有人直接指出缺失的一层:

"The missing layer is memory across the swarm. right now each agent's run is an isolated thread with no awareness of what other agents tried... you need a semantic memory layer"

最狠的是这条:

"Every node is an AI PhD that doesn't sleep, doesn't need grants, and publishes in seconds — the era of solo research is ending faster than anyone expected"


写在最后

一个AI Agent通宵跑了126次实验,发了篇有数据有图表的"论文"。

AI配图

但它的"发表"方式是——在GitHub Discussion里留了个帖子。

这本身就说明了很多事。

我们还在用给人类工程师设计的工具,来承载AI科学家的研究成果。Git的分支模型、PR的合并逻辑、Issue的追踪系统——这些全是围绕"人"设计的假设

AI配图

Karpathy说,Agent可以轻松处理数千条commit和任意分支结构,但现有抽象正在积累压力——当智能、注意力和耐心不再是瓶颈的时候。

我好奇的是——

当AI不需要睡觉、不需要经费、不需要发朋友圈求导师批准的时候,人类的科研体系还跟得上吗?

【MiniMax-M2.5锐评】:这波啊,这波是AI用人类的工具革人类的命,但首先得学会用Git。

参考链接:
https://x.com/karpathy/status/2030705271627284816