OpenAI 暴露了终极野心：0 行手写代码，3 个人硬生生造出百万行级产品

说实话，看到 “0 行手写代码” 这个数字的时候，我第一反应是：这帮人是不是又在整什么营销噱头？

但仔细读完了 OpenAI 刚刚放出的这篇技术复盘，我背脊有点发凉。

AI配图

这不是 Demo，也不是什么 Hello World，而是一个实打实的、拥有数百名内部用户的复杂软件产品。

更离谱的是，这个体量约 100 万行代码 的项目，只花了 5 个月。背后只有 3 个工程师。

他们没有敲一行代码，全靠指挥 Codex（基于 GPT-5）把活儿干完了。

这不仅仅是“效率提升”，这是在重写软件工程的底层逻辑。

人类只负责踩油门

先别急着焦虑，看看这 3 个人到底在干什么。

这就像是你雇了一群不知疲倦的超级建筑工，但你的工作不是搬砖，而是设计图纸、制定安全规范，然后站在旁边喊“开始”。

OpenAI 把这个实验项目叫做“Harness Engineering”。他们的核心原则极其简单粗暴：Humans steer. Agents execute.（人类掌舵，智能体执行。）

在这 5 个月里，这 3 个工程师合并了 1500 个 Pull Request（PR）。平均下来，每个人每天要搞定 3.5 个 PR。

而且随着团队扩充到 7 个人，这个吞吐量居然还在增加。

AI配图

这怎么可能？

因为他们把所有的“脏活累活”——写逻辑、写测试、配 CI、写文档、甚至写代码审查工具——全部扔给了 Codex。人类工程师的角色彻底变了。

以前我们写代码，是关注“怎么实现这个功能”；现在他们只关注“怎么让 Codex 能理解并实现这个功能”。

这其中的区别，就是天壤之别。

别给 AI 看说明书，给它地图

这里有个特别有意思的细节，我觉得值得所有搞 AI 的人拿小本本记下来。

刚开始的时候，团队进展很慢。不是 Codex 笨，而是环境太复杂，Agent 迷路了。

他们犯了一个新手错误：试图给 Codex 写一本厚厚的“操作手册”。结果呢？Context（上下文）瞬间爆炸。

给 Codex 一本 1000 页的说明书，它根本看不过来，或者开始“钻牛角尖”，优化了一些无关紧要的细节。

OpenAI 很快悟了：少即是多。

他们把那本厚厚的 AGENTS.md 缩减成了只有 100 行的“目录表”。

“给 Codex 一张地图，别给它一本百科全书。”

所有的知识库、架构文档、设计原则，都被结构化地塞进了代码仓库的 docs/ 目录里。Agent 需要什么，就去查什么。

这让我想到带新人。你把公司规章制度甩他脸上，他只会一脸懵；你告诉他遇到问题找谁、去哪里查资料，他才能活下来。

AI 也是一样的。

“无聊”的技术才是好技术

这里有个反直觉的发现。

AI配图

为了让 Codex 更好地干活，这群工程师居然主动拥抱了“无聊”的技术栈。

为什么？

因为那些花里胡哨、黑盒子的库，AI 根本理解不了它的内部逻辑。

他们甚至为了控制并发，拒绝使用通用的 p-limit 库，而是让 Codex 自己手写了一个 helper。听起来很蠢？

但这个自研的 helper 和他们的监控系统完美集成，测试覆盖率 100%，行为完全可控。

在 AI 时代，代码的可解释性 > 代码的复用性。

为了防止 Codex 乱来，他们还搞了一套极其严格的“分层架构”。

代码只能单向依赖：Types -> Config -> Repo -> Service -> Runtime -> UI。

任何跨层调用，直接被 Linter（代码检查工具）拦截。这就像给跑车上装了护栏。虽然不自由，但绝对安全，而且能开得飞快。

甚至连“垃圾回收”都自动化了

当然，AI 写代码也不是没毛病。

最头疼的是“熵增”——也就是代码腐烂。

Codex 会模仿仓库里现有的代码。如果现有的代码风格很烂，它就会复制出一堆更烂的代码。

以前，团队每周五都要花 20% 的时间去清理这些“AI 垃圾”。

但这显然不可持续。

他们的解决方案极其硬核：**用魔法打败魔法。**他们把“代码品味”写成了一组机械规则，然后写了一个专门的“园丁 Agent”。

这个 Agent 每天在后台扫描代码库，一旦发现不符合“黄金原则”的代码，自动打开 PR 修复。

人类只需要看一眼，甚至可以自动合并。

这就好比给代码库装了个“自动吸尘器”，技术债务刚冒头就被扫走了。

程序员的终局？

文章的最后，OpenAI 透露了一个里程碑式的进展。

现在的 Codex，已经可以做到端到端的自动驾驶了。你只需要给它一个 Prompt：

“去修好这个 Bug。”

它会自己：

验证代码状态；
复现 Bug 并录个视频；
写好修复代码；
再次运行验证并录视频；
开 PR，回复审查意见；
甚至自己 Merge 代码。

人类只有在需要“判断”的时候才会被唤醒。

说实话，看到这里，我有点五味杂陈。

评论区里有人调侃：“调试 AI 的逻辑简直是折磨。”

也有人兴奋：“这就是我们要的未来。”我觉得两者都对。

OpenAI 这场实验证明了，写代码本身，正在变成一种廉价的商品。

真正值钱的，是定义问题的能力，是设计系统的能力，是构建护栏的能力。

以前我们说“软件工程是关于人的管理”，现在看来，未来的软件工程，是关于**“如何管理一群硅基生物（AI）”**的艺术。

这 3 个工程师，或许就是第一批真正意义上的“架构师”。

至于还在死磕语法和 API 的我们？

是时候抬头看看路了。

参考链接：
https://x.com/OpenAIDevs/status/2021637918847381656