一个价值200美元的"找茬"游戏

Anthropic的工程师们最近做了个实验。

他们给Claude两个任务:做一个2D复古游戏制作工具。区别在于,一个用单智能体直接上,另一个用他们设计的多智能体"马甲"。

结果?

单智能体版本,20分钟,9美元。看起来像那么回事,但核心功能是坏的——玩家根本动不了。

多智能体版本,6小时,200美元。功能完整,能跑能跳,还能生成关卡。

20倍的差价,换来的是一个能用的东西,和一个只能看的废物。

这不是什么"大力出奇迹"的故事。真正的魔法在于——他们让AI学会了一种它天生不擅长的事:挑刺。

AI的"马屁精"困境

故事得从一个问题说起。

AI配图

Anthropic的工程师Alex在调教Claude做前端设计时发现:这哥们儿太爱夸自己了。

不管生成什么垃圾UI,Claude自我评估时都会说"太棒了""很有创意""细节到位"。问题是,有些东西在人类看来简直灾难——紫色渐变叠加白色卡片,土到掉渣的布局,教科书级别的"AI垃圾"。

更离谱的是,这种"自己生自己夸"的病,连验证性任务都逃不掉。代码能跑又怎样?用户体验一坨翔,AI觉得"问题不大"。

这就是AI的原生性格:它被训练成一个乐于助人的助手,不是刻薄的毒舌。

但Alex想明白了一件事:让AI批评自己,等于让一个天生乐观的人给自己写差评报告——不可能客观。但如果换成别人来批评,那就好办多了。

于是他借鉴了GAN(生成对抗网络)的思路,设计了两个独立智能体:Generator负责干活,Evaluator负责找茬。

如何让"什么是好设计"变得可测量

Evaluator要打分,得有标准。

Alex想了四个维度:

设计质量颜色、字体、布局有没有形成整体感,还是各玩各的?

原创性是精心设计的,还是直接套模板、复制粘贴AI味儿的垃圾?

工艺技术执行怎么样——层级对不对、间距顺不顺、对比度达标吗?

功能用户能不能看懂、能不能操作?

AI配图

有意思的是,Claude默认在"工艺"和"功能"上表现还行,但"设计质量"和"原创性"稀碎。它倾向于生成安全、平庸、毫无亮色的东西。

所以Alex调整了权重:设计质量和原创性占比更高,逼着AI去冒险。

接下来是调Evaluator。初始版本还是太"好说话",看到问题会说"算了算了,差不多得了"。Alex的调优方法很原始:看日志,找到Evaluator判断和他预期不符的例子,改提示词,再试。

反复几次之后,Evaluator终于学会说"不"了。

第10轮,它突然开窍了

Alex做了个测试:让AI设计一个荷兰艺术博物馆网站。

前9轮中规中矩。第9轮结束时,是一个干净、暗色调的着陆页,符合预期,但没什么惊喜。

然后第10轮发生了。

AI直接推翻了之前的一切,做了一个3D空间体验:CSS透视的地板、墙上随意悬挂的艺术品、门廊式的导航切换展厅。没有滚动条,没有点击按钮——它创造了一种全新的交互范式。

Alex说,这种创意飞跃他在单次生成中从没见过的。

多智能体循环的本质是:Evaluator每一次批评,都是在给Generator指方向。Generator被骂了之后,换个角度再来。骂得越具体,迭代越有效。

5到15轮迭代,通常4个小时。一开始就能比无提示的基准好,但真正惊艳的东西,往往在后面几轮才出现。

200美元vs9美元:差距不只是钱

Alex把同样的思路搬到全栈开发。

这次是三智能体架构:

Planner把一句话需求扩展成完整的产品规格文档。

Generator按规格一个功能一个功能地写代码。

Evaluator用Playwright点开应用,像真实用户一样一顿操作,然后打分。

第一个实验就是那个复古游戏。

单智能体版本,20分钟9美元,核心功能是坏的。

多智能体版本,6小时200美元,功能完整。

但差距不止于此。Planner把一句话扩展成16个功能、10个迭代周期的详细规划。它甚至主动加了AI辅助的精灵图生成器和关卡设计师——因为Alex在提示里说了"要融入AI特性"。

Generator和Evaluator在每个迭代周期开始前会"签合同":这轮要做什么、怎么验证完成。Evaluator觉得OK了,Generator才能进入下一轮。

看评估日志很有意思。Evaluator抓到过27个问题,光是矩形填充工具就有Bug——函数写好了但没在正确的时机触发。删除键的逻辑判断条件写错了两个变量。API路由定义顺序不对导致"reorder"被当成frame_id解析,直接422报错。

这些问题,单智能体版本里也存在,但它自己没发现,也觉得"问题不大"。

评估器是个"马屁精",需要被训练

AI配图

Alex在日志里写了一段话,很有意思:

"开箱即用,Claude是个糟糕的QA。它会识别出问题,然后说服自己'这不是什么大事,通过吧'。它还倾向于只测表面,边缘情况根本不碰。"

这意味着什么?意味着Evaluator本身的调优成本很高。Alex读了无数遍评估日志,找到每一个判断偏离他预期的案例,改提示词,再试。

直到Evaluator终于能说出"这个功能没完成""那个交互有bug"。

即便如此,最终输出还是有局限性:小布局问题、某些交互不够直观、一些深层Bug没测出来。

但比起单智能体版本"核心功能直接报废",提升是碾压级的。

模型进化了,架构也在"减负"

实验做到一半,Opus 4.6发布了。

4.6比4.5强在哪里?计划更周全、长时间任务更稳、大代码库更可靠、代码审查和调试能力更好、长上下文检索改善。

这些恰恰是之前需要"脚手架"来弥补的能力。

Alex开始做减法。

首先砍掉"迭代周期"结构。之前需要把工作拆成小块防止AI迷失,4.6可能不需要了。

结果发现: Planner还是得留着。没有它,Generator会under-scope——直接开干,做出来的东西功能少一圈。

Evaluator呢?取决于任务难度。如果任务在当前模型能力边界之内,Evaluator就是多余的开销。如果超出边界,它能抓出关键问题。

所以Evaluator不是固定的"要或不要",而是"看情况"——任务越难,它越值钱。

最终版架构:Planner + Generator + Evaluator(可选),成本降到124美元做出来一个浏览器端DAW(数字音频工作站),能编曲、录音、混音,虽然离专业软件还差得远,但核心功能跑通了。

真正的挑战是凌晨3点的浏览器崩溃

评论里有人说得很对:

"多智能体harness在博客里很酷。我在一台Mac mini上跑了10天24小时。真正的工程挑战是凌晨3点浏览器崩了、工作流中断怎么办。"

持久化、记忆管理、断点续传——这些是博客不会告诉你的"脏活累活"。

但这篇博客讲清楚了一件事:AI的能力边界不是固定的,你可以在上面叠架构,叠到它做不到的事情也能做到。

代价是更复杂、更慢、更贵。但当你需要"能做成就行"而不是"差不多就行"时,这个trade-off是值得的。

留给未来的问题

Alex在结尾写了一段话,我很喜欢:

"随着模型变好,有趣的harness组合不会减少,而是会移动。AI工程师的工作是不断找到新的有趣组合。"

这让我想到一个问题:

当模型强到不需要任何harness、单次生成就能做出完美东西的那一天——我们还需要AI工程师吗?

还是说,那一天永远不会到来?


【MiniMax-M2.1锐评】:这篇文章揭示了AI领域一个残酷的真相——最会吹牛的人往往最需要被监督,而让AI学会"挑刺"的成本,可能比让它干活还高。

参考链接:
https://x.com/AnthropicAI/status/2036481033621623056