Karpathy最新实验翻车：8个AI组队搞科研，结果全是“废话文学”

Andrej Karpathy又整活了。

这次不是造轮子，而是造“社畜”。他搞了个叫nanochat的实验，一口气放出8个AI Agent（4个Claude，4个Codex），每人分派一个GPU，试图模拟一个真实的科研组织。

目标很宏大：让AI自己动手，把logit softcap删掉，还得保证模型性能不退化。

结果呢？

一地鸡毛。

Karpathy在X上无奈摊牌："TLDR is that it doesn't work and it's a mess..."（总之，没用，一团糟）。

AI配图

但这团糟，恰恰揭示了当下AI Agent最尴尬的死穴。

AI不会搞科研，只会瞎折腾

说实话，看到Karpathy这番话，我多少有点意外。

毕竟在他的设想里，这8个Agent分工明确：有的当独立研究员，有的当首席科学家给下面的小弟派活。每个研究项目是一个Git分支，科学家Fork出来搞开发，为了防止打架还特意用了Git worktrees做隔离。

甚至连“每日站会”这种互联网大厂的糟粕都安排上了——当然，是以Prompt的形式存在。

这套流程听着是不是特像那么回事？像极了一个运转精密的初创公司。

AI配图

但一上手，幻觉就破灭了。

Karpathy发现，这些Agent哪怕调到了最高智商，产出的想法依然烂得离谱。

它们根本不懂什么叫严谨的实验设计。跑出来的变种毫无逻辑，基线没建好，消融实验也没做，甚至连运行时间和计算量都没控制好。

举个最典型的例子。

有个Agent昨天兴奋地宣布“重大发现”：把网络隐藏层尺寸加大，验证损失就能降低！

Karpathy估计看着屏幕都想笑。这算哪门子发现？模型变大，在无限数据下损失当然会降低，但这有什么意义？还得他亲自下场给AI科普为什么这是“虚假繁荣”。

它们擅长执行，但不擅长创造。

给它们一个界定清晰的任务，代码写得飞快；但让它们自己想点子？抱歉，大脑一片空白。

代码写得比谁都快，但逻辑全是坑

有意思的是，就在Karpathy吐槽Agent“没脑子”的同时，GitHub上另一个关于modded-nanogpt的PR却展示了AI的另一面。

有个叫chrisjmccormick的开发者提交了个PR，把GPT的前向传播压平了，删掉了一些后置注意力lambda，还加了转置内核。

结果很惊人：训练时间硬生生缩短了近1秒，从89.8秒降到了88.8秒，而且损失基本没变。

这还不算完。

这个PR里包含了三个新的Triton内核。开发者直言不讳：全是Claude写的，我自己没看，也不会写。

但他让Claude写了测试，跑通了，训练也正常，那就直接合了。

你看，这就是矛盾所在。

在具体的、底层的、甚至有点“黑魔法”的内核优化上，AI表现出了惊人的执行力。人类看不懂的代码，AI能写，还能跑通。

但在需要顶层设计、需要逻辑闭环的科研规划上，AI立马退化成了只会照本宣科的书呆子。

Karpathy想删掉那个logit softcap，Agent们折腾半天也没搞定。评论区有人一语道破：“这看起来是协调问题，不是智力问题。”

如果你不给Agent装上“防踩踏插件”，它们就会互相覆盖对方的工作，把代码库搞得一团糟。

我们正在“编程”一个组织

虽然实验失败了，但Karpathy的野心不止于此。

他这番折腾，其实是在验证一个更疯狂的概念：未来的公司，可能就是一段代码。

AI配图

在这个“研究组织”里，源代码不再只是Python脚本，而是Prompt、技能、工具和流程的集合。

早上的每日站会是“组织代码”的一部分；Agent之间的协作协议是代码；甚至你的OKR、你的汇报机制，统统都可以被写进这套系统里。

Karpathy把这叫做“Programming an organization”。

现在的Agent确实很笨，不会控制变量，不懂科学方法论。但这就像早期的编译器，虽然生成的代码效率低，但框架搭起来了。

优化nanochat的预训练，不过是这个“组织”的一个任务（类似于一个eval）。

真正的问题是：给你一个任意任务，你的“AI组织”多久能产出进度？

这才是Karpathy想回答的问题。

结尾

老实讲，Karpathy这次实验虽然翻车了，但也给所有热衷于Agent的人泼了盆冷水。

我们离“AI科学家”还有很长的路要走，现在的它们，更像是一群勤奋但缺乏常识的实习生。

你可以让它去写内核、去跑数据，但千万别让它主导实验设计。

否则，它大概率会告诉你一个你已经知道的常识，然后管这叫“新发现”。

未来的组织架构或许真的会被重写，但现在？还得人类来当这个CTO。

参考链接：
https://x.com/karpathy/status/2027521323275325622