说实话,看到 “0 行手写代码” 这个数字的时候,我第一反应是:这帮人是不是又在整什么营销噱头?

但仔细读完了 OpenAI 刚刚放出的这篇技术复盘,我背脊有点发凉。

AI配图

这不是 Demo,也不是什么 Hello World,而是一个实打实的、拥有数百名内部用户的复杂软件产品。

更离谱的是,这个体量约 100 万行代码 的项目,只花了 5 个月。背后只有 3 个工程师

他们没有敲一行代码,全靠指挥 Codex(基于 GPT-5)把活儿干完了。

这不仅仅是“效率提升”,这是在重写软件工程的底层逻辑。

人类只负责踩油门

先别急着焦虑,看看这 3 个人到底在干什么。

这就像是你雇了一群不知疲倦的超级建筑工,但你的工作不是搬砖,而是设计图纸、制定安全规范,然后站在旁边喊“开始”。

OpenAI 把这个实验项目叫做“Harness Engineering”。他们的核心原则极其简单粗暴:Humans steer. Agents execute.(人类掌舵,智能体执行。)

在这 5 个月里,这 3 个工程师合并了 1500 个 Pull Request(PR)。平均下来,每个人每天要搞定 3.5 个 PR。

而且随着团队扩充到 7 个人,这个吞吐量居然还在增加。

AI配图

这怎么可能?

因为他们把所有的“脏活累活”——写逻辑、写测试、配 CI、写文档、甚至写代码审查工具——全部扔给了 Codex。人类工程师的角色彻底变了。

以前我们写代码,是关注“怎么实现这个功能”;现在他们只关注“怎么让 Codex 能理解并实现这个功能”。

这其中的区别,就是天壤之别。

别给 AI 看说明书,给它地图

这里有个特别有意思的细节,我觉得值得所有搞 AI 的人拿小本本记下来。

刚开始的时候,团队进展很慢。不是 Codex 笨,而是环境太复杂,Agent 迷路了。

他们犯了一个新手错误:试图给 Codex 写一本厚厚的“操作手册”。结果呢?Context(上下文)瞬间爆炸。

给 Codex 一本 1000 页的说明书,它根本看不过来,或者开始“钻牛角尖”,优化了一些无关紧要的细节。

OpenAI 很快悟了:少即是多。

他们把那本厚厚的 AGENTS.md 缩减成了只有 100 行的“目录表”。

“给 Codex 一张地图,别给它一本百科全书。”

所有的知识库、架构文档、设计原则,都被结构化地塞进了代码仓库的 docs/ 目录里。Agent 需要什么,就去查什么。

这让我想到带新人。你把公司规章制度甩他脸上,他只会一脸懵;你告诉他遇到问题找谁、去哪里查资料,他才能活下来。

AI 也是一样的。

“无聊”的技术才是好技术

这里有个反直觉的发现。

AI配图

为了让 Codex 更好地干活,这群工程师居然主动拥抱了“无聊”的技术栈。

为什么?

因为那些花里胡哨、黑盒子的库,AI 根本理解不了它的内部逻辑。

他们甚至为了控制并发,拒绝使用通用的 p-limit 库,而是让 Codex 自己手写了一个 helper。听起来很蠢?

但这个自研的 helper 和他们的监控系统完美集成,测试覆盖率 100%,行为完全可控。

在 AI 时代,代码的可解释性 > 代码的复用性。

为了防止 Codex 乱来,他们还搞了一套极其严格的“分层架构”。

代码只能单向依赖:Types -> Config -> Repo -> Service -> Runtime -> UI。

任何跨层调用,直接被 Linter(代码检查工具)拦截。这就像给跑车上装了护栏。虽然不自由,但绝对安全,而且能开得飞快。

甚至连“垃圾回收”都自动化了

当然,AI 写代码也不是没毛病。

最头疼的是“熵增”——也就是代码腐烂。

Codex 会模仿仓库里现有的代码。如果现有的代码风格很烂,它就会复制出一堆更烂的代码。

以前,团队每周五都要花 20% 的时间去清理这些“AI 垃圾”。

但这显然不可持续。

他们的解决方案极其硬核:**用魔法打败魔法。**他们把“代码品味”写成了一组机械规则,然后写了一个专门的“园丁 Agent”。

这个 Agent 每天在后台扫描代码库,一旦发现不符合“黄金原则”的代码,自动打开 PR 修复。

人类只需要看一眼,甚至可以自动合并。

这就好比给代码库装了个“自动吸尘器”,技术债务刚冒头就被扫走了。

程序员的终局?

文章的最后,OpenAI 透露了一个里程碑式的进展。

现在的 Codex,已经可以做到端到端的自动驾驶了。你只需要给它一个 Prompt:

“去修好这个 Bug。”

它会自己:

  1. 验证代码状态;
  2. 复现 Bug 并录个视频;
  3. 写好修复代码;
  4. 再次运行验证并录视频;
  5. 开 PR,回复审查意见;
  6. 甚至自己 Merge 代码。

人类只有在需要“判断”的时候才会被唤醒。

说实话,看到这里,我有点五味杂陈。

评论区里有人调侃:“调试 AI 的逻辑简直是折磨。”

也有人兴奋:“这就是我们要的未来。”我觉得两者都对。

OpenAI 这场实验证明了,写代码本身,正在变成一种廉价的商品。

真正值钱的,是定义问题的能力,是设计系统的能力,是构建护栏的能力。

以前我们说“软件工程是关于人的管理”,现在看来,未来的软件工程,是关于**“如何管理一群硅基生物(AI)”**的艺术。

这 3 个工程师,或许就是第一批真正意义上的“架构师”。

至于还在死磕语法和 API 的我们?

是时候抬头看看路了。

参考链接:
https://x.com/OpenAIDevs/status/2021637918847381656