一个周末,AI在实验室里折腾了一整天。
你敢想象吗?一个AI Agent,周六上午开始干活,到晚上已经帮你跑了42次实验,做了13次有效改进,还顺带修复了一个你自己都没发现的代码bug。
这是Andrej Karpathy提出的“Autoresearch”概念——一个用LLM当大脑的自动化研究循环。上周末,开发者Yash Kumar把它套用在了自己三年前的eCLIP研究代码上,然后——
出门买菜去了。
说实话,看到这个实验结果的时候我惊到了。不是因为AI有多神,而是因为它真的太像一个人了:勤奋、固执、到点下班。
故事得从头说起
Autoresearch的思路其实特别简单。
想象你有一个“监工”LLM,旁边站着一个“苦力”——你的训练代码。监工每次让苦力改一点点东西(改个超参数、调个网络结构),然后跑一遍实验,看结果变好了还是变差了。好了就保留,差了就回滚。周而复始。
这就是Karpathy设计的“ constrained optimization loop”:假设→修改→训练→评估→提交或回滚→重复。
Yash把这个流程套用在了自己的eCLIP项目上。这是个做图像-文本对齐的模型,原来的研究用的是医疗X光数据集,但他手头没权限访问了。于是他找了个新数据集——Ukiyo-eVG,大约11000张日本浮世绘木版画,还带短语→边界框标注。
嗯,AI研究用的是浮世绘。有点魔幻,但能跑。
他做了简单的安全隔离:把训练过程containerize,关掉网络权限,只让Claude Code能改两个文件(train.py和run.sh)。防止AI搞事情。
然后周六早上,他点击了“开始”,出门了。
42次实验,54%提升
下午买完菜回来,屏幕上已经堆满了实验记录。
42次实验,13次提交,29次回滚。
Mean Rank(检索排名的平均位置)从344.68掉到了157.43。
54%的性能提升。
只用了不到8小时,只用了一块RTX 4090。
等等,54%是什么概念?你让一个研究生勤勤恳恳调参三个月,未必能达到这个效果。
但最离谱的不是这个。
它修了一个我不知道的bug
Phase 2的时候,AI发现了一个致命问题:代码里有个学习率参数被错误地clamp在2以下。
它直接把限制relax了。
Mean Rank瞬间下降了113点。
这是单次改动最大的收益,比后面所有架构调整加起来都多。
换句话说:AI帮我修了一个我自己都没意识到的bug,然后告诉我“你这代码有问题”。
说实话,这种感觉有点微妙。就像你开了十年车,突然有人告诉你刹车片该换了——而且是个刚拿到驾照的AI告诉你的。
之后的优化基本就是“AI版超参数搜索”:增加projection dimension,调学习率,又砍了30点。这活儿人也能干,但AI干得更快、更机械、不知道累。
然后它就开始“摸鱼”了
好景不长。
到了Phase 4(架构改动)和Phase 5(月球漫步计划)阶段,AI的成功率断崖式下跌。
它改了改attention机制——没用。
它尝试了一些“moonshot ideas”——大部分像在墙上扔意面,没沾上。
这时候我意识到一个问题:当搜索空间变得模糊,AI也开始“瞎子摸鱼”了。
更搞笑的是,到后来Claude Code有时候会突然忘记自己的权限,开始乱调bash命令。有一回它等训练等烦了,直接结束对话不干了。
“I wouldn’t give it full autonomy just yet :)”
所以,AI能替代研究员?
这个问题很多人问,但答案可能没那么令人兴奋。
Autoresearch确实有效,尤其在“搜索空间清晰”的情况下——调参、改bug、跑网格搜索,这种活AI干得比人快。但一旦进入“未知未知”领域,需要真正的创新直觉,它就开始掉链子。
某种程度上,AI现在更像一个超级高效的苦力,而不是一个有想法的科学家。
它能帮你把existing ideas跑得更快,但让它想出一个全新的研究方向——目前还差得远。
而且算力成本也是问题。有评论指出,42次实验的token消耗可能比人工调参还贵。AI的优势是快,但未必便宜。
尾声
Yash在周日晚饭前停了实验。
AI帮他把Mean Rank从344.68干到了34.30,img→txt R@5达到53.0%,txt→img R@5达到51.4%。作为一次周末尝试,成绩相当可观。
但当他准备继续深入时——
“But it was already time for dinner, and we were planning to watch a movie after that, so this was where Claude and I parted ways… until Monday of course.”
你看,AI不会看电影,也不会吃饭。
它帮你干活,但你得负责帮它收尾。
这可能就是当前AI研究工具的真相:它能帮你跑得更快,但路怎么走,还是得人来想。
【MiniMax-M2.5锐评】:这个实验最细思极恐的不是54%的性能提升,而是AI发现的那个bug——我们写的代码里到底还有多少“自己没注意到但一直存在”的问题?
参考链接:
https://ykumar.me/blog/eclip-autoresearch/