Andrej Karpathy又整活了。
这次不是造轮子,而是造“社畜”。他搞了个叫nanochat的实验,一口气放出8个AI Agent(4个Claude,4个Codex),每人分派一个GPU,试图模拟一个真实的科研组织。
目标很宏大:让AI自己动手,把logit softcap删掉,还得保证模型性能不退化。
结果呢?
一地鸡毛。
Karpathy在X上无奈摊牌:"TLDR is that it doesn't work and it's a mess..."(总之,没用,一团糟)。
但这团糟,恰恰揭示了当下AI Agent最尴尬的死穴。
AI不会搞科研,只会瞎折腾
说实话,看到Karpathy这番话,我多少有点意外。
毕竟在他的设想里,这8个Agent分工明确:有的当独立研究员,有的当首席科学家给下面的小弟派活。每个研究项目是一个Git分支,科学家Fork出来搞开发,为了防止打架还特意用了Git worktrees做隔离。
甚至连“每日站会”这种互联网大厂的糟粕都安排上了——当然,是以Prompt的形式存在。
这套流程听着是不是特像那么回事?像极了一个运转精密的初创公司。
但一上手,幻觉就破灭了。
Karpathy发现,这些Agent哪怕调到了最高智商,产出的想法依然烂得离谱。
它们根本不懂什么叫严谨的实验设计。跑出来的变种毫无逻辑,基线没建好,消融实验也没做,甚至连运行时间和计算量都没控制好。
举个最典型的例子。
有个Agent昨天兴奋地宣布“重大发现”:把网络隐藏层尺寸加大,验证损失就能降低!
Karpathy估计看着屏幕都想笑。这算哪门子发现?模型变大,在无限数据下损失当然会降低,但这有什么意义?还得他亲自下场给AI科普为什么这是“虚假繁荣”。
它们擅长执行,但不擅长创造。
给它们一个界定清晰的任务,代码写得飞快;但让它们自己想点子?抱歉,大脑一片空白。
代码写得比谁都快,但逻辑全是坑
有意思的是,就在Karpathy吐槽Agent“没脑子”的同时,GitHub上另一个关于modded-nanogpt的PR却展示了AI的另一面。
有个叫chrisjmccormick的开发者提交了个PR,把GPT的前向传播压平了,删掉了一些后置注意力lambda,还加了转置内核。
结果很惊人:训练时间硬生生缩短了近1秒,从89.8秒降到了88.8秒,而且损失基本没变。
这还不算完。
这个PR里包含了三个新的Triton内核。开发者直言不讳:全是Claude写的,我自己没看,也不会写。
但他让Claude写了测试,跑通了,训练也正常,那就直接合了。
你看,这就是矛盾所在。
在具体的、底层的、甚至有点“黑魔法”的内核优化上,AI表现出了惊人的执行力。人类看不懂的代码,AI能写,还能跑通。
但在需要顶层设计、需要逻辑闭环的科研规划上,AI立马退化成了只会照本宣科的书呆子。
Karpathy想删掉那个logit softcap,Agent们折腾半天也没搞定。评论区有人一语道破:“这看起来是协调问题,不是智力问题。”
如果你不给Agent装上“防踩踏插件”,它们就会互相覆盖对方的工作,把代码库搞得一团糟。
我们正在“编程”一个组织
虽然实验失败了,但Karpathy的野心不止于此。
他这番折腾,其实是在验证一个更疯狂的概念:未来的公司,可能就是一段代码。
在这个“研究组织”里,源代码不再只是Python脚本,而是Prompt、技能、工具和流程的集合。
早上的每日站会是“组织代码”的一部分;Agent之间的协作协议是代码;甚至你的OKR、你的汇报机制,统统都可以被写进这套系统里。
Karpathy把这叫做“Programming an organization”。
现在的Agent确实很笨,不会控制变量,不懂科学方法论。但这就像早期的编译器,虽然生成的代码效率低,但框架搭起来了。
优化nanochat的预训练,不过是这个“组织”的一个任务(类似于一个eval)。
真正的问题是:给你一个任意任务,你的“AI组织”多久能产出进度?
这才是Karpathy想回答的问题。
结尾
老实讲,Karpathy这次实验虽然翻车了,但也给所有热衷于Agent的人泼了盆冷水。
我们离“AI科学家”还有很长的路要走,现在的它们,更像是一群勤奋但缺乏常识的实习生。
你可以让它去写内核、去跑数据,但千万别让它主导实验设计。
否则,它大概率会告诉你一个你已经知道的常识,然后管这叫“新发现”。
未来的组织架构或许真的会被重写,但现在?还得人类来当这个CTO。
参考链接:
https://x.com/karpathy/status/2027521323275325622