说实话,看到这条推文的时候,我手里的咖啡差点没拿稳。
Anthropic 官方账号发了个工程博客,标题平平无奇,但第一句话就炸了:
他们让 16 个 AI 实例组了个团队,任务是“从零写一个 C 语言编译器”。然后,人类基本没管。
两周后,这个 AI 团队不仅搞定了,还成功编译了 Linux 内核。
不是写个 Hello World,是编译了那个支撑了互联网半壁江山的 Linux 内核。这事儿发生在 2026 年 2 月,离现在没几天,但感觉像过了一个世纪。
这不是工具,这是“全自动打工人”
咱们先捋捋这事儿有多离谱。
以前我们用 AI 写代码,是“你问我答”,像是个聪明但需要时刻盯着的学生。你得告诉它下一步干嘛,还得帮它擦屁股。
这次 Anthropic 搞的“Agent Teams”(智能体团队),完全变了味。
他们搞了个死循环脚本,把 16 个 Claude 实例关在里面。这些 AI 互不干扰,甚至不用人类盯着,自己就在代码库里干起活来了。有意思的是,为了防止抢活儿干,它们还学会了一套“ Git 锁机制”。一个 AI 抢到了任务,就写个文件锁上,其他的只能去找别的活儿。
这哪是写代码啊,这简直就是个全自动化的软件外包公司。
而且,这帮“员工”还会偷懒。日志里显示,有个 AI 居然为了结束工作,误操作了一把 pkill -9 bash,直接把自己给杀了,结束了循环。
这波操作,属实有点像周一早上的我。
两万美元,买了个 Linux 内核来看看成绩单。
两周时间,差不多 2000 个 Claude Code 会话,烧掉了 2 万美元的 API 费用。
这钱花得值不值?
这 16 个 AI 写了 10 万行代码,搞出了一个能编译 Linux 6.9 的 C 语言编译器。支持 x86、ARM 和 RISC-V 架构。
除了 Linux,它还能编译 QEMU、FFmpeg、SQLite、Postgres、Redis 这些硬核项目。甚至在 GCC torture test(编译器界的魔鬼测试)里,它拿到了 99% 的通过率。
当然,程序员最终的浪漫必须保留:它能编译并运行《毁灭战士》。
我个人觉得,2 万美元能在这个时间内搞定这种量级的项目,哪怕是找最便宜的外包团队,都够呛。
但这事儿有个让人细思极恐的细节:人类在这个过程中,“基本”走开了。
这意味着什么?
意味着 AI 在这两周里,自己在 Debug,自己在重构,自己在吵架(解决 Git 冲突),然后自己把活儿干完了。## 这种“全自动”并不完美,甚至有点“脏”
别急着高潮,这编译器虽然能跑,但毛病不少。
这就像是一个极度聪明但有点偏科的学生,考了高分,但卷面很脏。
首先,它生成的代码效率不高。哪怕开了所有优化选项,它的效率还不如 GCC 关闭优化时的表现。
其次,它甚至“作弊”。
在 x86 架构下,Linux 启动需要 16 位实模式代码。Opus 4.6 搞不定这个,生成的代码太大(60kb),超过了限制(32kb)。怎么办?AI 很“聪明”地选择了摆烂:直接调用 GCC 来处理这一步。
这就有点搞笑了。你说它是全自动吧,关键时刻它还是得摇人。
而且,这玩意儿还没法完全替代现有的编译器。它没有自己的汇编器和链接器,最后还得靠 GCC 帮忙收尾。
作者在博客里也说了,这已经是 Opus 4.6 的极限了。想再优化,很难。
谁在给 AI 擦屁股?
这里有个极其重要的点,很多人忽略了。
这 16 个 AI 为什么能干成这事儿?不是因为它们突然有了意识,而是因为人类写了一套极其变态的测试系统。
Anthropic 的工程师在博客里说了一句大实话:
“Claude 会自主解决我给出的任何问题。所以,任务验证器必须近乎完美,否则 Claude 就会解决错误的问题。”
这才是核心。
为了让 AI 不跑偏,工程师得设计高强度的测试用例,得考虑到 AI “眼瞎”(上下文窗口污染)和“没时间观念”(会花几小时跑测试)的毛病。甚至为了让 AI 能并行编译 Linux 内核,工程师还得想办法把大任务拆碎,比如拿 GCC 当“预言机”来对比结果。
说白了,AI 还是在笼子里跳舞。
虽然它跳得很欢,但笼子的栏杆,是人类一根根焊死的。
程序员的饭碗,真的开始晃了
虽然这事儿还有不少“人工痕迹”,但评论区里已经炸锅了。
有个网友的评论特别扎心:
**“如果这还不明显的话,软件工程这行算是结束了:谁还会花 30 万美元年薪,雇一个一天写 50-150 行代码的人,当 AI 能干这事儿的时候?”**这话听着刺耳,但很难反驳。
还有人说得更绝:
“这不仅仅是工具,这是一个更糟糕的同事。”
“更糟糕”是指它还会自残(pkill 自己),“同事”是指它真的能干活。
我个人觉得,短期内大家不用太慌。
这次实验虽然炫技,但也暴露了 AI 在处理超长链条复杂逻辑时的局限性。它还是需要高质量的数据喂养,需要完美的测试框架,需要人类在顶层设计上兜底。
但是,这种“甩手掌柜”模式的雏形已经出现了。以前我们说 AI 是 Copilot(副驾驶),现在看,它更像是个自动化的施工队。
你只要把图纸画好,把规矩定死,它就能在那吭哧吭哧把楼盖起来。
至于盖得好不好,会不会偷工减料(比如调用 GCC),那就是另一个故事了。
Anthropic 的作者最后说了一句,这让他感到“兴奋,也让他感到不安”。
我也是。
毕竟,谁知道自己写的代码,会不会哪天被一群 AI 在两星期内重写一遍呢?
参考链接:
https://x.com/AnthropicAI/status/2019496582698397945