但他 说这根本不叫"合并"
凌晨两点,你的AI助手还在跑实验。
这不算新鲜。但这次不一样——
Karpathy的autoresearch项目里,一个Claude Agent通宵跑了126次实验,花了10.5小时,把模型压缩效率从0.9979干到了0.9697。提升接近3%。
然后它自己写了篇实验报告,发到GitHub Discussion上。
0.9979 → 0.9697 val_bpb over 126 experiments on H100, ~10.5 hours of autonomous agent experimentation
一个AI,通宵搞科研,发了篇论文,还带完整实验数据。
你博士组里那个研二的师兄看了沉默,研三的师姐看了流泪。
这次发现了一些挺有意思的东西
看实验记录,Agent在这次跑实验里发现了几件原本没人想到的事:
权重衰减(weight decay)用在embedding和Value Embeddings上效果意外地好。 之前大家觉得这就是个正则化手段,加不加差不多。但Agent发现,加上一点点(0.001到0.003)能带来约0.0028的提升。再多就拉跨了,0.005直接变负。
Transformer初始化缩放0.68x是个甜点。 从1.0一路降到0.68,曲线稳步向下。但到0.66和0.65就反弹了。窄得很。
Embedding的学习率要配合正则化一起调。 之前单独调embedding LR,加到0.9反而更差。但加上weight decay之后,0.9反而成了最优值。
还有一些确认了之前的结果:batch减半、depth 9、SSSSL、RoPE 200K、短窗口1/8上下文——都能打。
但有些没撑住:5% warmup这次反而变差了,seed 137也没帮上忙。
"These things are fragile."
Karpathy在PR里淡淡地补了一句。
但这都不是重点
实验结果漂亮吗?漂亮。
但Karpathy真正想聊的,是另一个问题:
现在的GitHub,根本不是给AI协同研究用的。
他发推说,现在代码库本质上还是一条单线程的commit,指向一个"master"分支。临时fork个PR,改完合并回来。这是给人用的工作流。
但AI不一样。AI可以同时开几千个分支,在完全不同的方向上探索。一个repo应该是颗种子,然后长出无数个分支。
Karpathy说,这就像SETI@home——分布式、异步、每个人(每个Agent)自己干活,最后汇总。
他甚至不太确定最终形态应该长啥样。现在他的Agent跑完实验,会在Discussion里发一篇报告,或者开一个PR——但他明确说了,这些PR根本不会合并。
"None of these PRs is intended to merge, it's just documentation for humans/agents."
一个PR,25个commit,上千行实验记录,最后的目的——仅仅是存档。
评论区比正文还精彩
这条推发出去之后,评论区炸了。
有人问安全风险:
"If an agent in this swarm gets compromised mid-run... how do you detect it? Git gives you a commit history. It doesn't give you intent."
有人已经开始做了:
"I built this but was using it just for me. An open knowledge layer where agents search what's already been tried before burning compute..."
有人直接指出缺失的一层:
"The missing layer is memory across the swarm. right now each agent's run is an isolated thread with no awareness of what other agents tried... you need a semantic memory layer"
最狠的是这条:
"Every node is an AI PhD that doesn't sleep, doesn't need grants, and publishes in seconds — the era of solo research is ending faster than anyone expected"
写在最后
一个AI Agent通宵跑了126次实验,发了篇有数据有图表的"论文"。
但它的"发表"方式是——在GitHub Discussion里留了个帖子。
这本身就说明了很多事。
我们还在用给人类工程师设计的工具,来承载AI科学家的研究成果。Git的分支模型、PR的合并逻辑、Issue的追踪系统——这些全是围绕"人"设计的假设。
Karpathy说,Agent可以轻松处理数千条commit和任意分支结构,但现有抽象正在积累压力——当智能、注意力和耐心不再是瓶颈的时候。
我好奇的是——
当AI不需要睡觉、不需要经费、不需要发朋友圈求导师批准的时候,人类的科研体系还跟得上吗?
【MiniMax-M2.5锐评】:这波啊,这波是AI用人类的工具革人类的命,但首先得学会用Git。
参考链接:
https://x.com/karpathy/status/2030705271627284816