一支数百人的AI大军,在无人监督的情况下,为你写了一个浏览器。
这是AI编程工具Cursor最新实验的成果。
他们让数百个“编码智能体”并行协作,持续运行数周,瞄准那些通常需要人类团队数月才能完成的项目。
超过一百万行代码,数万亿个Tokens的吞吐,以及一个从零开始构建的、能运行的网页浏览器。
这个看似简单的目标背后,是AI协调智能体进行大规模、长周期协作的首次极限压力测试。
它回答了一个核心问题:靠堆砌更多AI,真能搞定复杂软件工程吗?
单打独斗的AI,撞上了天花板
如今的AI编码助手,处理单一任务很在行。
写个函数?修个Bug?手到擒来。
但面对一个需要数月开发的大型项目呢?它就慢得像是在爬行。
最直接的想法是:让多个AI一起上。
但问题立刻来了——怎么让它们不打架、不摸鱼、还能朝着同一个目标前进?
Cursor团队的第一个直觉是“动态协调”。给所有AI智能体平等的地位,让它们通过一个共享文件来沟通:谁在做什么,谁接下来该做什么。
理想很丰满,现实却很骨感。
它们甚至搞不定一把“锁”。
为了防止两个AI抢同一个任务,团队引入了锁机制。结果AI要么长时间霸占着锁,要么干脆忘了释放。
即使锁机制正常,它也成了瓶颈。二十个AI的协作效率,瞬间暴跌到只有两三个的水平——大部分时间都在等待。
更脆弱的还在后面:AI可能在持有锁时崩溃,可能试图获取已经拥有的锁,甚至可能不拿锁就直接修改协调文件……混乱不堪。
团队尝试了更先进的“乐观并发控制”,但更深层的问题浮出水面:在没有等级结构的平权世界里,AI变得极度“避险”。
没有AI愿意接手困难任务,也没有AI愿意为端到端的实现负责。它们只做那些微小、安全的改动。结果就是,工作空转,长时间毫无进展。
想让AI像人类团队一样协作?第一步,就得先给它们“分个工”。
规划者与执行者:AI世界的“管理革命”
扁平化结构行不通。
Cursor团队转向了“管道模式”,为AI赋予了明确的角色分工:
- 规划者:像架构师和产品经理。它们持续探索代码库,分解出具体任务。规划本身也可以并行和递归——一个主规划者可以生成处理特定区域的子规划者。
- 执行者:像埋头写代码的工程师。它们只负责领取任务,心无旁骛地完成,然后提交代码。不与其他执行者协调,也不操心全局。
每个工作周期结束后,一个“评审者”智能体会决定是继续还是进入下一轮全新迭代。
这个简单的分层结构,奇迹般地解决了大部分协调问题。
它让AI大军得以在没有单个智能体陷入“隧道视野”(只关注局部而忽略整体)的情况下,向超大型项目发起冲击。
一场持续数周的“AI黑客马拉松”
理论需要验证,Cursor团队给AI大军设定了一个极其雄心勃勃的目标:
从头开始构建一个网页浏览器。
这支AI军团连续运行了近一周,在超过1000个文件中写下了超过100万行代码。
尽管代码库如此庞大,新加入的AI智能体依然能理解它并做出有意义的贡献。数百个执行者并行工作,向同一分支提交代码,冲突却极少。
从零构建一个浏览器是极其困难的。 这证明了AI协作系统的可扩展性。
另一个实验更具现实意义:
将Cursor自家代码库中的Solid框架原地迁移到React。
这项工作耗时超过3周,涉及+266,000行新增和-193,000行删除的改动。
团队相信,这个改动最终有望被合并。
还有更多“副产物”:一个长周期运行的智能体,用高效的Rust版本将视频渲染速度提升了25倍,并增加了支持平滑缩放、平移和运动模糊的交互功能。这段代码已被合并,即将投入生产。
他们的实验清单上,还有一些仍在运行、令人瞠目的项目:
- Java语言服务器:7.4K次提交,55万行代码
- Windows 7模拟器:14.6K次提交,120万行代码
- Excel(复刻?):12K次提交,160万行代码
- FX1(未知项目):9.5K次提交,120万行代码
数以亿计的Token被投向同一个目标**,**系统虽不完美,但效果远超预期。
光鲜成果背后,尖锐的质疑声
然而,在技术博客的乐观叙事之外,社区和专家的反应却冷峻得多。
质疑一:“从零开始”是个文字游戏?
有开发者立刻点破:“定义一下什么叫‘从零开始’构建浏览器?这东西依赖了超过100个第三方库!为了实现CSS布局,它直接用了现成的Taffy库——这跟其他浏览器的实现没什么不同。”
这意味着,AI在很大程度上是在“组装”现有轮子,而非真正无中生有。
质疑二:百万行代码,等于可用产品?
有人仔细查看了AI生成的渲染库代码,指出其脆弱和令人费解之处。
另一个人则尝试运行了浏览器项目的测试,发现持续集成(CI)已经失败了一段时间,许多拉取请求在测试未通过的情况下就被合并了。
“他们如何验证这是一个成功的例子?还是我误解了他们想表达的观点?”
质疑三:最关键的代码,还没敢合并?
“这听起来可能像讽刺,但我是认真的:他们为什么还没合并那个(Solid转React的)PR?”
博客描绘的未来无比酷炫:无需太多监管的AI编码集群,能构建任何东西,高质量完成复杂项目。
“但给出的例子感觉单薄。浏览器、Excel、Windows 7都是存在的,并且明确存在于LLM的训练集中。最接近真实代码的是他们对Cursor代码库的改造……但它还没合并。”
质疑四:这到底是工程革命,还是昂贵的玩具?
有人从经济学角度思考:如果智能体及其组织方式继续改进,软件的成本是否会最终被压缩到硬件运行和生成所需Token的成本?
“Token曾经是‘昂贵的’,因为它们来自人类的思想……”
但也有人看到了潜力,并分享了类似“规划-委托”模式的成功经验,认为任何拥有完善标准和测试套件的大型软件,都可能被AI智能体快速重写和优化。
真正的胜负手,往往在最不起眼的地方
抛开争议,Cursor的实验揭示了一些反直觉的、可能决定未来的关键发现。
第一,模型不是越专越好,而是越“听话”越好。
对于超长周期任务,GPT-5.2这类通用模型,在遵循指令、保持专注、避免偏离和完整精确实现方面,表现优于专门为编码训练的GPT-5.1-codex。不同的模型擅长不同的角色,团队开始为“规划者”和“执行者”分配最合适的模型,而非追求一个万能模型。
第二,最好的系统,往往比你想的更简单。
他们最初尝试引入“集成者”角色来做质量控制和冲突解决,结果发现它制造的瓶颈比解决的问题还多。执行者自己就有能力处理冲突。 许多改进来自于做减法,而非加法。
第三,提示词的力量,被严重低估了。
“系统行为中,令人惊讶的大部分取决于我们如何提示这些智能体。” 让它们良好协调、避免病态行为、在长时间内保持专注,需要大量的提示工程实验。承载框架和模型固然重要,但提示词更重要。
狂飙之后,路在何方?
多智能体协调仍然是个难题。当前的系统能工作,但远非最优。
规划者应该在任务完成时被唤醒,以规划下一步。智能体偶尔会运行得过久。他们仍然需要周期性的“重启”来对抗偏离和隧道视野。
但**能否通过投入更多AI来扩展自主编码的规模****?**答案比他们预期的要乐观。
“数百个智能体可以在单个代码库上协作数周,在雄心勃勃的项目上取得实际进展。”
这场持续数周的AI编程狂飙,最终将影响Cursor产品的能力。它像一场大型社会实验,提前预演了未来软件工程的可能形态:
人类定义愿景与边界,AI军团负责将模糊的构想,转化为百万行具象的代码。
然而,当兴奋的洪流退去,那些关于代码质量、项目真实性、以及“从零开始”定义的尖锐质疑,依然坚硬地留在沙滩上。
我们究竟是在见证一场生产力的革命,还是在围观一场耗费巨量算力、生成脆弱代码的华丽表演?
当AI写下的代码多到人类已无法逐行审查时,我们该相信什么?