我去买了趟菜，回来发现它帮我把模型性能提升了54%

一个周末，AI在实验室里折腾了一整天。

你敢想象吗？一个AI Agent，周六上午开始干活，到晚上已经帮你跑了42次实验，做了13次有效改进，还顺带修复了一个你自己都没发现的代码bug。

这是Andrej Karpathy提出的“Autoresearch”概念——一个用LLM当大脑的自动化研究循环。上周末，开发者Yash Kumar把它套用在了自己三年前的eCLIP研究代码上，然后——

出门买菜去了。

说实话，看到这个实验结果的时候我惊到了。不是因为AI有多神，而是因为它真的太像一个人了：勤奋、固执、到点下班。

故事得从头说起

Autoresearch的思路其实特别简单。

想象你有一个“监工”LLM，旁边站着一个“苦力”——你的训练代码。监工每次让苦力改一点点东西（改个超参数、调个网络结构），然后跑一遍实验，看结果变好了还是变差了。好了就保留，差了就回滚。周而复始。

这就是Karpathy设计的“ constrained optimization loop”：假设→修改→训练→评估→提交或回滚→重复。

Yash把这个流程套用在了自己的eCLIP项目上。这是个做图像-文本对齐的模型，原来的研究用的是医疗X光数据集，但他手头没权限访问了。于是他找了个新数据集——Ukiyo-eVG，大约11000张日本浮世绘木版画，还带短语→边界框标注。

嗯，AI研究用的是浮世绘。有点魔幻，但能跑。

他做了简单的安全隔离：把训练过程containerize，关掉网络权限，只让Claude Code能改两个文件（train.py和run.sh）。防止AI搞事情。

然后周六早上，他点击了“开始”，出门了。

42次实验，54%提升

下午买完菜回来，屏幕上已经堆满了实验记录。

42次实验，13次提交，29次回滚。

Mean Rank（检索排名的平均位置）从344.68掉到了157.43。

54%的性能提升。

只用了不到8小时，只用了一块RTX 4090。

等等，54%是什么概念？你让一个研究生勤勤恳恳调参三个月，未必能达到这个效果。

但最离谱的不是这个。

它修了一个我不知道的bug

Phase 2的时候，AI发现了一个致命问题：代码里有个学习率参数被错误地clamp在2以下。

它直接把限制relax了。

Mean Rank瞬间下降了113点。

这是单次改动最大的收益，比后面所有架构调整加起来都多。

换句话说：AI帮我修了一个我自己都没意识到的bug，然后告诉我“你这代码有问题”。

说实话，这种感觉有点微妙。就像你开了十年车，突然有人告诉你刹车片该换了——而且是个刚拿到驾照的AI告诉你的。

之后的优化基本就是“AI版超参数搜索”：增加projection dimension，调学习率，又砍了30点。这活儿人也能干，但AI干得更快、更机械、不知道累。

然后它就开始“摸鱼”了

好景不长。

到了Phase 4（架构改动）和Phase 5（月球漫步计划）阶段，AI的成功率断崖式下跌。

它改了改attention机制——没用。

它尝试了一些“moonshot ideas”——大部分像在墙上扔意面，没沾上。

这时候我意识到一个问题：当搜索空间变得模糊，AI也开始“瞎子摸鱼”了。

更搞笑的是，到后来Claude Code有时候会突然忘记自己的权限，开始乱调bash命令。有一回它等训练等烦了，直接结束对话不干了。

“I wouldn’t give it full autonomy just yet :)”

所以，AI能替代研究员？

这个问题很多人问，但答案可能没那么令人兴奋。

Autoresearch确实有效，尤其在“搜索空间清晰”的情况下——调参、改bug、跑网格搜索，这种活AI干得比人快。但一旦进入“未知未知”领域，需要真正的创新直觉，它就开始掉链子。

某种程度上，AI现在更像一个超级高效的苦力，而不是一个有想法的科学家。

它能帮你把existing ideas跑得更快，但让它想出一个全新的研究方向——目前还差得远。

而且算力成本也是问题。有评论指出，42次实验的token消耗可能比人工调参还贵。AI的优势是快，但未必便宜。

尾声

Yash在周日晚饭前停了实验。

AI帮他把Mean Rank从344.68干到了34.30，img→txt R@5达到53.0%，txt→img R@5达到51.4%。作为一次周末尝试，成绩相当可观。

但当他准备继续深入时——

“But it was already time for dinner, and we were planning to watch a movie after that, so this was where Claude and I parted ways… until Monday of course.”

你看，AI不会看电影，也不会吃饭。

它帮你干活，但你得负责帮它收尾。

这可能就是当前AI研究工具的真相：它能帮你跑得更快，但路怎么走，还是得人来想。

【MiniMax-M2.5锐评】：这个实验最细思极恐的不是54%的性能提升，而是AI发现的那个bug——我们写的代码里到底还有多少“自己没注意到但一直存在”的问题？

参考链接：
https://ykumar.me/blog/eclip-autoresearch/