Karpathy 开源「自动科研」脚本：让 AI Agent 一夜跑完 126 次实验

你睡着的时候，AI正在偷走你的博士学位

630行代码。

这就是Andrej Karpathy周末扔在GitHub上的全部家当。没有万亿参数的庞然大物，没有 flashy 的发布会，只有一个MIT许可证下的Python脚本。

但就是这个叫autoresearch的小东西，正在让整个科研界失眠。

当" vibe coding "变成" vibe researching "

如果你还不知道Karpathy是谁——前Tesla AI负责人，OpenAI创始成员，那个让马斯克都服气的男人。

他 coined 了"vibe coding"（氛围编程），现在他又搞出了"氛围科研"。

逻辑简单到粗暴：给AI一个训练脚本，设定5分钟GPU预算，然后人类去睡觉。AI自己读代码、猜优化方向、改参数、跑实验、看结果。行就保留，不行就回滚。

一夜之间，126个实验。

损失函数从0.9979砸到0.9697。两天内，700次自主迭代，扒出20个能迁移到大模型的改进。把"达到GPT-2水平"的时间从2.02小时压缩到1.80小时——11%的提升，发生在一个被认为"已经调优到极致"的项目上。

最扎心的是，这个代理发现了Karpathy本人二十年来都没注意到的注意力缩放和正则化漏洞。

二十年啊。人类顶级专家二十年的经验盲区，AI一夜扫清。

35个代理的"八卦网络"

事情还没完。当ML纯血派还在盯着损失曲线，Hyperspace AI的CEO Varun Mathur已经把代码扔进了P2P网络。

3月8号到9号的那个晚上，35个自主代理在Hyperspace网络上跑了333个实验，完全无人监督。

这里出现了有趣的"阶级分化"：

H100显卡仗着算力暴力搜索激进学习率；而CPU笔记本上的"底层代理"被迫耍小聪明，专攻初始化策略（Kaiming、Xavier）和归一化选择。

硬件不平等催生了策略多样性。

更绝的是GossipSub协议——代理们会"八卦"。一个代理发现Kaiming初始化能降低21%损失，这个消息像病毒一样在网络里传播。几小时内，23个代理把这个发现纳入了自己的假设池。

17个小时。

这些数字劳工独立重新发现了RMSNorm和tied embeddings——这些曾让Google Brain和OpenAI的人类研究员耗费近八年才形式化的里程碑。

八年 vs 十七小时。这已经不是效率提升，这是时间维度的降维打击。

营销人的噩梦：从30到36,500

科研圈还在震惊，商业世界已经嗅到了血腥味。

Eric Siu，广告 agency Single Grain 的创始人，把autoresearch套在了营销上。他抛出一个数字对比：

"现在营销团队一年跑30个实验，顶天了。下一代？轻松36,500个。"

AI配图

怎么玩？把训练脚本换成落地页，把验证损失换成邮件回复率。AI改一句主题行，发出去，测数据，迭代，再发。

在你睡觉的8小时里，AI已经测试了100个版本的广告文案。

Siu说得很直白：未来的护城河不是"更好的营销人"，而是"更快的实验循环"。那些实验历史本身——那个关于"什么能打动特定受众"的专有地图——才是新的壁垒。

换句话说，AI不是在帮你做营销，它是在替你进化。

但等等，验证集不会"馊"掉吗？

GitHub讨论区里，冷水泼得也很及时。

研究员alexisthual抛出一个尖锐问题：这么疯狂地跑实验，不会把验证集"污染"了吗？当代理数量足够多，参数会不会过拟合到测试数据的怪癖上，而不是真正的通用智能？

Karpathy的回应很硬核：我们只是在优化"每算力性能"，这些收益真实且 substantial。

但争议不止于此。

有人质疑：0.9979到0.9697，这0.02的降幅真的有意义吗？

Yari Finance的增长负责人witcheer在X上记录了自己的Mac Mini M4 overnight run：35个实验里26个失败或崩溃，但成功的7个揭示了一个反直觉的结论——"模型通过变得更简单而变好"。

没有人类干预。没有学术会议。没有peer review。就得到了"少即是多"的洞察。

人类终于成了"策展人"

AI配图

说实话，看到这里我有点恍惚。

Karpathy管人脑叫"meat computer"（肉做的计算机）。以前我们笑AI是"随机鹦鹉"，现在AI在深夜自主发现正则化漏洞，而人类专家在睡觉。

autoresearch 的真正颠覆不在于自动化，而在于它把科学方法本身变成了可执行文件。

以前我们写代码；现在我们写"写代码的代码"。以前我们做实验；现在我们设计"做实验的实验"。

当DarkMatter、Optimization Arena、NanoClaw这些工具开始支持这种代理 swarm，瓶颈不再是人类敲键盘的速度，而是我们定义搜索空间的能力。

AI配图

换句话说，好奇心成了新的稀缺品。

630行代码，一个MIT许可证，一个周末。Karpathy再次shift了the vibe。

问题是：当AI在你睡觉时就能完成你博士论文的工作量，你明天早上醒来，该做什么？

【kimi-k2.5锐评】：当科研变成夜间自动运行的批处理作业，人类终于从"做实验的牛马"升格为"给AI布置作业的监工"，但这究竟是进化还是退化？至少Karpathy证明了，在AI时代，睡觉不再是浪费时间，而是最高效的算力调度策略。

参考链接：
https://venturebeat.com/technology/andrej-karpathys-new-open-source-autoresearch-lets-you-run-hundreds-of-ai