Cursor 揭秘：如何协调数百个 AI Agent 并行编写百万行代码

一支数百人的AI大军，在无人监督的情况下，为你写了一个浏览器。

这是AI编程工具Cursor最新实验的成果。

他们让数百个“编码智能体”并行协作，持续运行数周，瞄准那些通常需要人类团队数月才能完成的项目。

超过一百万行代码，数万亿个Tokens的吞吐，以及一个从零开始构建的、能运行的网页浏览器。

这个看似简单的目标背后，是AI协调智能体进行大规模、长周期协作的首次极限压力测试。

它回答了一个核心问题：靠堆砌更多AI，真能搞定复杂软件工程吗？

单打独斗的AI，撞上了天花板

如今的AI编码助手，处理单一任务很在行。

写个函数？修个Bug？手到擒来。

但面对一个需要数月开发的大型项目呢？它就慢得像是在爬行。

最直接的想法是：让多个AI一起上。

但问题立刻来了——怎么让它们不打架、不摸鱼、还能朝着同一个目标前进？

Cursor团队的第一个直觉是“动态协调”。给所有AI智能体平等的地位，让它们通过一个共享文件来沟通：谁在做什么，谁接下来该做什么。

理想很丰满，现实却很骨感。

它们甚至搞不定一把“锁”。

为了防止两个AI抢同一个任务，团队引入了锁机制。结果AI要么长时间霸占着锁，要么干脆忘了释放。

即使锁机制正常，它也成了瓶颈。二十个AI的协作效率，瞬间暴跌到只有两三个的水平——大部分时间都在等待。

更脆弱的还在后面：AI可能在持有锁时崩溃，可能试图获取已经拥有的锁，甚至可能不拿锁就直接修改协调文件……混乱不堪。

团队尝试了更先进的“乐观并发控制”，但更深层的问题浮出水面：在没有等级结构的平权世界里，AI变得极度“避险”。

没有AI愿意接手困难任务，也没有AI愿意为端到端的实现负责。它们只做那些微小、安全的改动。结果就是，工作空转，长时间毫无进展。

想让AI像人类团队一样协作？第一步，就得先给它们“分个工”。

规划者与执行者：AI世界的“管理革命”

扁平化结构行不通。

Cursor团队转向了“管道模式”，为AI赋予了明确的角色分工：

规划者：像架构师和产品经理。它们持续探索代码库，分解出具体任务。规划本身也可以并行和递归——一个主规划者可以生成处理特定区域的子规划者。
执行者：像埋头写代码的工程师。它们只负责领取任务，心无旁骛地完成，然后提交代码。不与其他执行者协调，也不操心全局。

每个工作周期结束后，一个“评审者”智能体会决定是继续还是进入下一轮全新迭代。

这个简单的分层结构，奇迹般地解决了大部分协调问题。

它让AI大军得以在没有单个智能体陷入“隧道视野”（只关注局部而忽略整体）的情况下，向超大型项目发起冲击。

一场持续数周的“AI黑客马拉松”

理论需要验证，Cursor团队给AI大军设定了一个极其雄心勃勃的目标：

从头开始构建一个网页浏览器。

这支AI军团连续运行了近一周，在超过1000个文件中写下了超过100万行代码。

尽管代码库如此庞大，新加入的AI智能体依然能理解它并做出有意义的贡献。数百个执行者并行工作，向同一分支提交代码，冲突却极少。

从零构建一个浏览器是极其困难的。 这证明了AI协作系统的可扩展性。

另一个实验更具现实意义：

将Cursor自家代码库中的Solid框架原地迁移到React。

这项工作耗时超过3周，涉及+266,000行新增和-193,000行删除的改动。

团队相信，这个改动最终有望被合并。

还有更多“副产物”：一个长周期运行的智能体，用高效的Rust版本将视频渲染速度提升了25倍，并增加了支持平滑缩放、平移和运动模糊的交互功能。这段代码已被合并，即将投入生产。

他们的实验清单上，还有一些仍在运行、令人瞠目的项目：

Java语言服务器：7.4K次提交，55万行代码
Windows 7模拟器：14.6K次提交，120万行代码
Excel（复刻？）：12K次提交，160万行代码
FX1（未知项目）：9.5K次提交，120万行代码

数以亿计的Token被投向同一个目标**，**系统虽不完美，但效果远超预期。

光鲜成果背后，尖锐的质疑声

然而，在技术博客的乐观叙事之外，社区和专家的反应却冷峻得多。

质疑一：“从零开始”是个文字游戏？
有开发者立刻点破：“定义一下什么叫‘从零开始’构建浏览器？这东西依赖了超过100个第三方库！为了实现CSS布局，它直接用了现成的Taffy库——这跟其他浏览器的实现没什么不同。”

这意味着，AI在很大程度上是在“组装”现有轮子，而非真正无中生有。

质疑二：百万行代码，等于可用产品？
有人仔细查看了AI生成的渲染库代码，指出其脆弱和令人费解之处。

另一个人则尝试运行了浏览器项目的测试，发现持续集成（CI）已经失败了一段时间，许多拉取请求在测试未通过的情况下就被合并了。

“他们如何验证这是一个成功的例子？还是我误解了他们想表达的观点？”

质疑三：最关键的代码，还没敢合并？
“这听起来可能像讽刺，但我是认真的：他们为什么还没合并那个（Solid转React的）PR？”
博客描绘的未来无比酷炫：无需太多监管的AI编码集群，能构建任何东西，高质量完成复杂项目。
“但给出的例子感觉单薄。浏览器、Excel、Windows 7都是存在的，并且明确存在于LLM的训练集中。最接近真实代码的是他们对Cursor代码库的改造……但它还没合并。”

质疑四：这到底是工程革命，还是昂贵的玩具？
有人从经济学角度思考：如果智能体及其组织方式继续改进，软件的成本是否会最终被压缩到硬件运行和生成所需Token的成本？
“Token曾经是‘昂贵的’，因为它们来自人类的思想……”

但也有人看到了潜力，并分享了类似“规划-委托”模式的成功经验，认为任何拥有完善标准和测试套件的大型软件，都可能被AI智能体快速重写和优化。

真正的胜负手，往往在最不起眼的地方

抛开争议，Cursor的实验揭示了一些反直觉的、可能决定未来的关键发现。

第一，模型不是越专越好，而是越“听话”越好。
对于超长周期任务，GPT-5.2这类通用模型，在遵循指令、保持专注、避免偏离和完整精确实现方面，表现优于专门为编码训练的GPT-5.1-codex。不同的模型擅长不同的角色，团队开始为“规划者”和“执行者”分配最合适的模型，而非追求一个万能模型。

第二，最好的系统，往往比你想的更简单。
他们最初尝试引入“集成者”角色来做质量控制和冲突解决，结果发现它制造的瓶颈比解决的问题还多。执行者自己就有能力处理冲突。 许多改进来自于做减法，而非加法。

第三，提示词的力量，被严重低估了。
“系统行为中，令人惊讶的大部分取决于我们如何提示这些智能体。” 让它们良好协调、避免病态行为、在长时间内保持专注，需要大量的提示工程实验。承载框架和模型固然重要，但提示词更重要。

狂飙之后，路在何方？

多智能体协调仍然是个难题。当前的系统能工作，但远非最优。

规划者应该在任务完成时被唤醒，以规划下一步。智能体偶尔会运行得过久。他们仍然需要周期性的“重启”来对抗偏离和隧道视野。

但**能否通过投入更多AI来扩展自主编码的规模****？**答案比他们预期的要乐观。

“数百个智能体可以在单个代码库上协作数周，在雄心勃勃的项目上取得实际进展。”

这场持续数周的AI编程狂飙，最终将影响Cursor产品的能力。它像一场大型社会实验，提前预演了未来软件工程的可能形态：

人类定义愿景与边界，AI军团负责将模糊的构想，转化为百万行具象的代码。

然而，当兴奋的洪流退去，那些关于代码质量、项目真实性、以及“从零开始”定义的尖锐质疑，依然坚硬地留在沙滩上。

我们究竟是在见证一场生产力的革命，还是在围观一场耗费巨量算力、生成脆弱代码的华丽表演？

当AI写下的代码多到人类已无法逐行审查时，我们该相信什么？