每周 1300 个代码合并请求(PR)。

不是某个硅谷大厂整个工程团队的周产出,而是 Stripe 那群被称为 "Minions"(小黄人)的 AI 编程智能体的单周成绩单。

这些 PR 里没有一行代码是人类敲的

人类工程师现在的角色变成了“监工”,只负责最后的 Review 和点击合并。

Stripe 已经把 AI 编程这套流程变成了工业级的水电煤,

这背后的故事,比单纯的“AI 取代程序员”要精彩得多,也现实得多。

image

云端的“一次性”算力

要让 AI 疯狂写代码,首先得给它们找个地方干活。

你不能指望它们跑在工程师的 MacBook Pro 上。那太慢了,也不安全。

Stripe 直接把工程师的云端开发环境——Devbox,扔给了 AI 用。

所谓的 Devbox,本质就是一个 AWS EC2 实例。

在 Stripe 的哲学里,这些机器不是宠物,坏了不修,直接换新的。

这种环境必须是标准化的、可并行的,而且完全隔离。

image

工程师活跃的 devboxes 列表,里面混入了 minions 的运行记录

为了追求极致的效率,Stripe 给 Devbox 定了个“硬指标”:10 秒内就绪。

你没看错,从你发出指令到环境准备好,只要 10 秒。这背后靠的是预热池,把巨大的 Git 仓库、Bazel 缓存、类型检查全给你弄好。

这点我觉得特别关键。

很多人做 AI Agent 失败,就是因为环境太烂,Agent 把时间全花在配环境、修依赖上了。Stripe 这种“热启动”的算力池,才是 AI 能像流水线一样干活的地基。

有意思的是,这套基建原本是为了服务人类工程师建的。

结果发现,最适合人类的环境,恰恰也最适合 AI。 这大概就是所谓的“无心插柳”。

没有人盯着,AI 敢乱来吗?

现在的 AI 编程工具,比如 Cursor 或者 Claude Code,大多需要人类在旁边“盯着”。

你写一句,它补一句;你指哪,它打哪。

但 Stripe 的 Minions 不一样。它们是“无人值守”的。

这意味着,你不能在它想删库的时候按个暂停键,也不能在它瞎写代码的时候给它个眼神暗示。

为了解决这个问题,Stripe fork 了 Block 的开源项目 "goose",然后魔改了一番。

既然没人盯着,那就得靠“关笼子”。

Minions 被限制在隔离的 Devbox 里,哪怕它把环境搞炸了,也只是炸掉一个临时的云盒子,伤不到筋骨。正因为有了这个“安全气囊”,Stripe 敢给 Minions 开放全权限,甚至不需要任何确认提示。

这就像把一个熊孩子关在一个全是软垫的房间里,随他折腾。

把 LLM 关进“确定性”的盒子里

这里有个很反直觉的设计。

如果让 AI 完全自由发挥,它大概率会给你整出一些花里胡哨但跑不起来的代码。Stripe 的做法是:把能确定的事,坚决不交给 AI 做。

他们搞了一套叫“Blueprints”(蓝图)的编排系统。

你可以把它想象成一个状态机。

在这个流程里,有些节点是 AI 负责的,比如“实现任务”或者“修复 CI 失败”;但有些节点是死板的代码逻辑,比如“运行 Linter”或者“推送代码”。

image

示意图:矩形是确定性节点,云朵是 AI 节点

为什么要这么折腾?

很简单:省钱,也省心。

把那些确定性的琐事交给代码执行,不仅省了昂贵的 Token,更重要的是减少了 AI 犯错的机会。

个人觉得,这才是目前做 AI Agent 最务实的思路。别总想着 AGI 一把梭,先把那些机械的步骤锁死,让 AI 只在真正需要推理的地方发力。

这种“把 LLM 关进小黑屋”的策略,反而让整个系统的可靠性上了一个台阶。

500 把“枪”,只给几把

AI 写代码,最怕的就是“瞎子摸象”。

它不知道公司内部的文档在哪,不知道 Bug 跟踪系统里怎么写的,甚至连代码规范都搞不清楚。

Stripe 的解法是 MCP(Model Context Protocol)和一个叫 Toolshed 的中台系统。

他们把内部 500 多个工具接入到了这个系统里。

但是,Stripe 并没有把这 500 把“枪”全都塞给 Minions。那样太危险了。他们只给 Minions 配备了任务必须的一小撮工具。

这是一种很克制的“工具理性”。

与此同时,Stripe 还在代码库里埋了大量的规则文件(比如 Cursor 的规则格式)。当 Minions 在某个目录下溜达时,它会自动读取对应的规则。

这就像是给每个 AI 配了一个随身携带的“小抄”,告诉它这里该用什么库,那里该遵守什么规范。

这是在“氛围编程”吗?

文章写到这,你可能会觉得 Stripe 简直是未来已来。

image

但也有一些犀利的质疑。

有评论说,这不过是“Dark Factory”(暗黑工厂)的高科技版:人类在前面精心设计输入,AI 在后面狂造代码。

"Good to see we're vibe coding critical financial infrastructure. Progress is being made. Next up: let's vibe code a pacemaker."

“很高兴看到我们在用‘氛围编程’搞关键金融基础设施。进步真大。下一步:让我们‘氛围编程’一个心脏起搏器吧。”

这话说得有点损,但也点到了痛点:这 1300 个 PR,质量到底怎么样?

Stripe 的工程师在评论区回应说,他们有 300 万个测试用例等着这些代码。

Minions 提交代码后,如果测试挂了,会有自动修复机制;如果修不好,还会给一次机会重试。如果还不行,才扔回给人类。

这其实是在用庞大的 CI(持续集成)体系,给 AI 的自由意志兜底。

在 IDE 阶段就解决问题,而不是等到 CI 阶段。

这种“左移反馈”的策略,原本是为了提升人类效率的,现在成了 AI 的紧箍咒。

写在最后

image

Stripe 这波操作,给我的感觉并不是“AI 消灭了人类程序员”。

恰恰相反,它展示了一个更有趣的趋势:那些为了极致提升人类效率而搭建的工程大厦,正在成为 AI 进化的最佳土壤。

Devbox、Blueprints、Toolshed、左移测试……

这些原本是为了让人类写代码更爽、更快、更稳的基础设施,现在无缝地嫁接到了 AI 身上。

这事儿挺讽刺的。

我们拼命优化工程化,最后发现最大的受益者,可能是这群 AI。

不过话说回来,能每周多搞定 1300 个 PR,管它是人写的还是 AI 写的呢?

反正,最后背锅的还是人类,对吧?

参考链接:
https://stripe.dev/blog/minions-stripes-one-shot-end-to-end-coding-agents-part-2