“我们（基本）走开了”：AI两周造出编译器，Linux内核已沦陷

说实话，看到这条推文的时候，我手里的咖啡差点没拿稳。

Anthropic 官方账号发了个工程博客，标题平平无奇，但第一句话就炸了：

AI配图

他们让 16 个 AI 实例组了个团队，任务是“从零写一个 C 语言编译器”。然后，人类基本没管。

两周后，这个 AI 团队不仅搞定了，还成功编译了 Linux 内核。

不是写个 Hello World，是编译了那个支撑了互联网半壁江山的 Linux 内核。这事儿发生在 2026 年 2 月，离现在没几天，但感觉像过了一个世纪。

这不是工具，这是“全自动打工人”

咱们先捋捋这事儿有多离谱。

AI配图

以前我们用 AI 写代码，是“你问我答”，像是个聪明但需要时刻盯着的学生。你得告诉它下一步干嘛，还得帮它擦屁股。

这次 Anthropic 搞的“Agent Teams”（智能体团队），完全变了味。

他们搞了个死循环脚本，把 16 个 Claude 实例关在里面。这些 AI 互不干扰，甚至不用人类盯着，自己就在代码库里干起活来了。有意思的是，为了防止抢活儿干，它们还学会了一套“ Git 锁机制”。一个 AI 抢到了任务，就写个文件锁上，其他的只能去找别的活儿。

这哪是写代码啊，这简直就是个全自动化的软件外包公司。

而且，这帮“员工”还会偷懒。日志里显示，有个 AI 居然为了结束工作，误操作了一把 pkill -9 bash，直接把自己给杀了，结束了循环。

这波操作，属实有点像周一早上的我。

两万美元，买了个 Linux 内核来看看成绩单。

两周时间，差不多 2000 个 Claude Code 会话，烧掉了 2 万美元的 API 费用。

这钱花得值不值？

这 16 个 AI 写了 10 万行代码，搞出了一个能编译 Linux 6.9 的 C 语言编译器。支持 x86、ARM 和 RISC-V 架构。

除了 Linux，它还能编译 QEMU、FFmpeg、SQLite、Postgres、Redis 这些硬核项目。甚至在 GCC torture test（编译器界的魔鬼测试）里，它拿到了 99% 的通过率。

当然，程序员最终的浪漫必须保留：它能编译并运行《毁灭战士》。

我个人觉得，2 万美元能在这个时间内搞定这种量级的项目，哪怕是找最便宜的外包团队，都够呛。

但这事儿有个让人细思极恐的细节：人类在这个过程中，“基本”走开了。

这意味着什么？

意味着 AI 在这两周里，自己在 Debug，自己在重构，自己在吵架（解决 Git 冲突），然后自己把活儿干完了。## 这种“全自动”并不完美，甚至有点“脏”

别急着高潮，这编译器虽然能跑，但毛病不少。

这就像是一个极度聪明但有点偏科的学生，考了高分，但卷面很脏。

首先，它生成的代码效率不高。哪怕开了所有优化选项，它的效率还不如 GCC 关闭优化时的表现。

其次，它甚至“作弊”。

在 x86 架构下，Linux 启动需要 16 位实模式代码。Opus 4.6 搞不定这个，生成的代码太大（60kb），超过了限制（32kb）。怎么办？AI 很“聪明”地选择了摆烂：直接调用 GCC 来处理这一步。

这就有点搞笑了。你说它是全自动吧，关键时刻它还是得摇人。

而且，这玩意儿还没法完全替代现有的编译器。它没有自己的汇编器和链接器，最后还得靠 GCC 帮忙收尾。

作者在博客里也说了，这已经是 Opus 4.6 的极限了。想再优化，很难。

谁在给 AI 擦屁股？

这里有个极其重要的点，很多人忽略了。

这 16 个 AI 为什么能干成这事儿？不是因为它们突然有了意识，而是因为人类写了一套极其变态的测试系统。

Anthropic 的工程师在博客里说了一句大实话：

“Claude 会自主解决我给出的任何问题。所以，任务验证器必须近乎完美，否则 Claude 就会解决错误的问题。”

这才是核心。

为了让 AI 不跑偏，工程师得设计高强度的测试用例，得考虑到 AI “眼瞎”（上下文窗口污染）和“没时间观念”（会花几小时跑测试）的毛病。甚至为了让 AI 能并行编译 Linux 内核，工程师还得想办法把大任务拆碎，比如拿 GCC 当“预言机”来对比结果。

说白了，AI 还是在笼子里跳舞。

虽然它跳得很欢，但笼子的栏杆，是人类一根根焊死的。

程序员的饭碗，真的开始晃了

虽然这事儿还有不少“人工痕迹”，但评论区里已经炸锅了。

有个网友的评论特别扎心：

**“如果这还不明显的话，软件工程这行算是结束了：谁还会花 30 万美元年薪，雇一个一天写 50-150 行代码的人，当 AI 能干这事儿的时候？”**这话听着刺耳，但很难反驳。

还有人说得更绝：

“这不仅仅是工具，这是一个更糟糕的同事。”

“更糟糕”是指它还会自残（pkill 自己），“同事”是指它真的能干活。

我个人觉得，短期内大家不用太慌。

这次实验虽然炫技，但也暴露了 AI 在处理超长链条复杂逻辑时的局限性。它还是需要高质量的数据喂养，需要完美的测试框架，需要人类在顶层设计上兜底。

但是，这种“甩手掌柜”模式的雏形已经出现了。以前我们说 AI 是 Copilot（副驾驶），现在看，它更像是个自动化的施工队。

你只要把图纸画好，把规矩定死，它就能在那吭哧吭哧把楼盖起来。

至于盖得好不好，会不会偷工减料（比如调用 GCC），那就是另一个故事了。

Anthropic 的作者最后说了一句，这让他感到“兴奋，也让他感到不安”。

我也是。

毕竟，谁知道自己写的代码，会不会哪天被一群 AI 在两星期内重写一遍呢？

参考链接：
https://x.com/AnthropicAI/status/2019496582698397945