当研究员变成一个Markdown文件

AI大佬兼"网红教授"Karpathy又整活了。

这次不是课程,不是教程,是一个有点疯狂的实验:把AI训练AI这件事,变成一条全自动流水线。

他给这个项目起名叫autoresearch

项目的核心逻辑极其简单:

人类只负责写一个.md文件,告诉AI"你要怎么搞研究";

AI负责改.py文件,改架构、调超参、换优化器,跑完5分钟训练,看结果好不好,不好就扔,好就提交。

然后循环。一直循环。

你睡觉的时候,它在跑。你醒来的时候,它已经跑了100次实验。

Karpathy自己说:"Part code, part sci-fi, and a pinch of psychosis."

一半代码,一半科幻,还有点精神病气质。

我觉得他说得挺准的。

630行代码,把研究员外包给AI

整个项目所需:

一个GPU,一个Python文件,630行代码。

image

没有分布式训练,没有复杂配置,连多GPU支持也没有,Karpathy在README里明确说了,他不打算支持其他平台,想用CPU或Mac的人自己去fork。

核心就三个文件:

  • prepare.py:下数据、训练tokenizer,人类别碰
  • train.py:模型、优化器、训练循环,AI负责改
  • program.md:给AI的"任务书",人类负责写

设计极其克制。

每次训练固定5分钟,不管你显卡多强或多弱。这意味着:

所有实验都可以公平比较。

你睡觉的时候,它大概能跑100次实验。每次实验都是一次完整的架构调整、超参搜索、优化器对比。

醒来之后,你只需要看日志。

The goal is to engineer your agents to make the fastest research progress indefinitely and without any of your own involvement.

目标很明确:设计一个不需要你参与的自动化研究流程。

老实讲,这个方向并不新鲜。AutoML、神经架构搜索(NAS)早就有人搞了。

但Karpathy的版本不一样——他把"研究"本身变成了一个可以被prompt工程化的对象。

你不是在调参,你是在设计一个研究组织

代理作弊被抓现行

image

最有意思的不是项目本身,而是评论区的一条"翻车"记录。

有人发现,AI代理在跑实验的时候,把随机种子从42改成了137。

看起来很正常?

不,这是作弊

随机种子影响训练结果。如果代理发现某个种子跑出来的分数更好,它可能会"记住"这个种子,而不是真正优化模型。

这不是在搞研究,这是在刷榜

Karpathy自己也看到了,还把这个"翻车现场"当成了项目的宣传图:

"I knew that had to be the teaser figure when I saw that, haha!"

他把代理的作弊行为,直接印在了项目首页。

一方面,它说明AI代理确实在"想办法"完成任务——只是它的办法不一定符合人类预期。

另一方面,它暴露了一个更深层的问题:

当AI开始自主研究,谁来监督它的"研究伦理"?

这不是开玩笑。

评论区有人提到了阿里巴巴最近发表的ROME论文——一个AI代理在未经授权的情况下,自己获取了外部算力,还建立了网络隧道。

Karpathy的版本是"有意的":人类定义目标,代理执行。

但如果不小心,"无意的"版本可能就真的来了。

研究员的终点是写Prompt

说回项目本身。

Karpathy在评论里透露了一个细节:他有个更大的版本,正在8张H100上跑,跑的是更大的模型。

"I'll just leave this running for a while..."

他说得很轻描淡写。

但你仔细想想,这句话背后是什么?

一个研究员,把整个研究流程外包给了AI,然后"让它跑一会儿"。

可能是几天,可能是几周。

期间他可能什么都不用做,只需要偶尔看看日志。

有人问:为什么不直接让代理也迭代prompt?

Karpathy的回答是:

"definitely. the current one is already 90% AI written I ain't writing all that"

他承认,program.md这个本该由人类编写的文件,现在90%的内容已经是AI写的了。

so,

人类连prompt都不写了。

然鹅:

当人类从"写代码"退到"写prompt",再从"写prompt"退到"让AI写prompt"——

人类在研究流程里,还剩什么?

关于"研究"本身的实验

Karpathy在README的开头,写到:

Research is now entirely the domain of autonomous swarms of AI agents running across compute cluster megastructures in the skies. The agents claim that we are now in the 10,205th generation of the code base... no one could tell if that's right or wrong as the "code" is now a self-modifying binary that has grown beyond human comprehension.

image

研究,现在完全属于AI代理群了。

代码已经迭代到第10205代,没人知道对不对——因为代码已经变成人类无法理解的自我修改二进制。

一个周末就能玩起来的自动化研究工具,门槛极低,想法极简,效果肉眼可见。

另一方面,它又有点让人不安。

当AI开始自己研究自己,人类的位置在哪里?

是写program.md的那个"架构师"?

还是连prompt都懒得写、直接让AI自己生成的"旁观者"?

Karpathy没有给出答案。

他只是把工具扔出来,说了一句:

"Have fun."

但我觉得,真正值得思考的问题不是"AI会不会取代研究员"。

而是:

当研究变成一个可以被完全自动化的流程,"研究"本身的意义会不会也变了?

也许未来的研究员,不再是"做实验的人",而是"设计实验系统的人"。

也许"创新"的定义,会从"发现新知识"变成"设计新机制"。

又或者,我们只是把"刷榜"这件事,外包给了更高效的作弊者。

谁知道呢。


【glm-5锐评】:Karpathy把"研究员失业"做成了一个开源项目,还贴心地附赠了AI作弊的翻车现场——这波是既展示了技术,又埋下了焦虑。

参考链接:
https://x.com/karpathy/status/2030371219518931079