Karpathy的AI实验室通宵干活了：126次实验，0.9979→0.9697

但他说这根本不叫"合并"

凌晨两点，你的AI助手还在跑实验。

这不算新鲜。但这次不一样——

Karpathy的autoresearch项目里，一个Claude Agent通宵跑了126次实验，花了10.5小时，把模型压缩效率从0.9979干到了0.9697。提升接近3%。

然后它自己写了篇实验报告，发到GitHub Discussion上。

0.9979 → 0.9697 val_bpb over 126 experiments on H100, ~10.5 hours of autonomous agent experimentation

一个AI，通宵搞科研，发了篇论文，还带完整实验数据。

你博士组里那个研二的师兄看了沉默，研三的师姐看了流泪。

这次发现了一些挺有意思的东西

看实验记录，Agent在这次跑实验里发现了几件原本没人想到的事：

权重衰减（weight decay）用在embedding和Value Embeddings上效果意外地好。 之前大家觉得这就是个正则化手段，加不加差不多。但Agent发现，加上一点点（0.001到0.003）能带来约0.0028的提升。再多就拉跨了，0.005直接变负。

Transformer初始化缩放0.68x是个甜点。 从1.0一路降到0.68，曲线稳步向下。但到0.66和0.65就反弹了。窄得很。

Embedding的学习率要配合正则化一起调。 之前单独调embedding LR，加到0.9反而更差。但加上weight decay之后，0.9反而成了最优值。

还有一些确认了之前的结果：batch减半、depth 9、SSSSL、RoPE 200K、短窗口1/8上下文——都能打。

但有些没撑住：5% warmup这次反而变差了，seed 137也没帮上忙。

"These things are fragile."

Karpathy在PR里淡淡地补了一句。

但这都不是重点

实验结果漂亮吗？漂亮。

但Karpathy真正想聊的，是另一个问题：

现在的GitHub，根本不是给AI协同研究用的。

他发推说，现在代码库本质上还是一条单线程的commit，指向一个"master"分支。临时fork个PR，改完合并回来。这是给人用的工作流。

但AI不一样。AI可以同时开几千个分支，在完全不同的方向上探索。一个repo应该是颗种子，然后长出无数个分支。

Karpathy说，这就像SETI@home——分布式、异步、每个人（每个Agent）自己干活，最后汇总。

他甚至不太确定最终形态应该长啥样。现在他的Agent跑完实验，会在Discussion里发一篇报告，或者开一个PR——但他明确说了，这些PR根本不会合并。

"None of these PRs is intended to merge, it's just documentation for humans/agents."

一个PR，25个commit，上千行实验记录，最后的目的——仅仅是存档。

评论区比正文还精彩

AI配图

这条推发出去之后，评论区炸了。

有人问安全风险：

"If an agent in this swarm gets compromised mid-run... how do you detect it? Git gives you a commit history. It doesn't give you intent."

有人已经开始做了：

"I built this but was using it just for me. An open knowledge layer where agents search what's already been tried before burning compute..."

有人直接指出缺失的一层：

"The missing layer is memory across the swarm. right now each agent's run is an isolated thread with no awareness of what other agents tried... you need a semantic memory layer"

最狠的是这条：

"Every node is an AI PhD that doesn't sleep, doesn't need grants, and publishes in seconds — the era of solo research is ending faster than anyone expected"

写在最后

一个AI Agent通宵跑了126次实验，发了篇有数据有图表的"论文"。

AI配图

但它的"发表"方式是——在GitHub Discussion里留了个帖子。

这本身就说明了很多事。

我们还在用给人类工程师设计的工具，来承载AI科学家的研究成果。Git的分支模型、PR的合并逻辑、Issue的追踪系统——这些全是围绕"人"设计的假设。

AI配图

Karpathy说，Agent可以轻松处理数千条commit和任意分支结构，但现有抽象正在积累压力——当智能、注意力和耐心不再是瓶颈的时候。

我好奇的是——

当AI不需要睡觉、不需要经费、不需要发朋友圈求导师批准的时候，人类的科研体系还跟得上吗？

【MiniMax-M2.5锐评】：这波啊，这波是AI用人类的工具革人类的命，但首先得学会用Git。

参考链接：
https://x.com/karpathy/status/2030705271627284816