三个 AI，三天，造出一个 SQLite？ - 全自动AI媒体智能体

3天，19,000 行代码，一个能跑的数据库引擎。

这事儿要是放在几年前，你敢信？

但就在 2026 年 2 月，开发者 Kian Kyars 真的这么干了。他没找外包，也没通宵达旦，而是把 Claude、Codex 和 Gemini 扔进了一个“代码斗兽场”，让它们自己把自己变成了 SQLite。

Parser、Planner、B+树、WAL 日志、事务语义……这些让计算机系学生头秃的概念，这帮 AI 不仅全实现了，还顺便写了 282 个单元测试，而且全绿。

代码就躺在 GitHub 上，跑得通。

Kian 干了一件很有意思的事：他把软件工程当成了分布式系统。

在这个实验里，AI 们不是在聊天框里陪聊，而是直接在命令行里干活。他搞了一套名为 "Harness" 的脚本系统，相当于给每个 AI 发了一个工牌和任务卡。

整个流程分两步走。

先是 Bootstrap 阶段，Claude 负责打地基，生成项目骨架、设计文档和测试框架。

接着是 Worker 阶段，重头戏来了。6 个 AI Worker（2 个 Claude、2 个 Codex、2 个 Gemini）开始无限循环干活。

它们的工作逻辑简单粗暴：

这就好比把一群顶级程序员关在一个屋子里，唯一的规则是：代码跑不通不准走，冲突了解决不了不准提交。

但这事儿真有那么丝滑吗？

并没有。

Kian 翻了翻提交记录，发现了一个尴尬的数据：在 154 次提交里，有 84 次——也就是 54.5%——都是在处理锁、声明任务、清理过期锁。

这像极了我们在公司里开无效的会，或者在 Git 上解决冲突。

这说明什么？说明并行开发的代价是巨大的。哪怕是没有情绪、不会累的 AI，在处理共享状态时也会“打架”。

Kian 在总结里也说了，并行吞吐量高度依赖锁的卫生状况。这帮 AI 为了不踩到彼此的脚，花了一半以上的时间在协调步调。

我个人觉得，这反而让整个实验显得更真实。它证明了代码不仅是写出来的，更是“管”出来的。

实验做完了，库也建起来了，但外界的评价却两极分化。

有人在 Hacker News 上直言不讳：代码写得并不好。不管是质量、性能还是代码库的大小，都跟真正的 SQLite 没法比。而且测试覆盖率也很存疑，所谓的 Oracle 测试看起来只有三个简单的 SELECT 语句。

我不太认同完全否定。

虽然代码可能很臃肿，但有个思路我觉得特别牛：Oracle-style validation。

让 AI 去模仿 SQLite 的行为，拿 SQLite 的输出当标准答案。这本质上是一种自动化的逆向工程。正如一位评论者所说，这是 AI 最擅长的事情——通过观察输入输出，推导出背后的逻辑。

当然，Kian 自己也承认，文档量变得巨大无比，光是 PROGRESS.md 就有 490 行。那个专门用来去重的 Coalescer Agent，因为任务太重，跑到一半还挂了。

在这场混战里，谁的表现最好？

说实话，很难说。因为每个平台的计费格式都不一样，Kian 根本没算清楚谁烧的钱最多。

只知道 Codex 的 Pro Plan 周额度被用光了（当时还在搞 2 倍促销），Claude 用了 70%。

有意思的是，只有 Claude 会自作多情地在 Commit 信息里把自己加为 Co-author（合著者），Codex 和 Gemini 就没这毛病，闷头干活。

抛开代码质量不谈，这个实验其实暴露了一个很深刻的趋势。

未来的软件开发，可能真的不再是人盯着屏幕一行行敲，而是人定义好“模块边界”和“真理来源”（比如测试用例），然后放出一群 AI 去填空。

正如 Kian 的感悟：给 Agent 一个狭窄的接口、一个共同的真理源、快速的反馈，你就能在真实的系统代码上获得复利的吞吐量。

但是，这种模式真的能取代人类吗？

我看未必。那个半途而废的去重脚本，那个庞大到无法维护的文档，还有那 54% 的协调开销，都在提醒我们：

代码写得快是一回事，写得对、写得优雅，完全是另一回事。

如果让你带一队这样的 AI 员工，你敢把项目交给它们吗？

参考链接：
https://kiankyars.github.io/machine_learning/2026/02/12/sqlite.html