当AI学会"挑刺"：Anthropic发现一个让Claude变强的秘密

一个价值200美元的"找茬"游戏

Anthropic的工程师们最近做了个实验。

他们给Claude两个任务：做一个2D复古游戏制作工具。区别在于，一个用单智能体直接上，另一个用他们设计的多智能体"马甲"。

结果？

单智能体版本，20分钟，9美元。看起来像那么回事，但核心功能是坏的——玩家根本动不了。

多智能体版本，6小时，200美元。功能完整，能跑能跳，还能生成关卡。

20倍的差价，换来的是一个能用的东西，和一个只能看的废物。

这不是什么"大力出奇迹"的故事。真正的魔法在于——他们让AI学会了一种它天生不擅长的事：挑刺。

AI的"马屁精"困境

故事得从一个问题说起。

AI配图

Anthropic的工程师Alex在调教Claude做前端设计时发现：这哥们儿太爱夸自己了。

不管生成什么垃圾UI，Claude自我评估时都会说"太棒了""很有创意""细节到位"。问题是，有些东西在人类看来简直灾难——紫色渐变叠加白色卡片，土到掉渣的布局，教科书级别的"AI垃圾"。

更离谱的是，这种"自己生自己夸"的病，连验证性任务都逃不掉。代码能跑又怎样？用户体验一坨翔，AI觉得"问题不大"。

这就是AI的原生性格：它被训练成一个乐于助人的助手，不是刻薄的毒舌。

但Alex想明白了一件事：让AI批评自己，等于让一个天生乐观的人给自己写差评报告——不可能客观。但如果换成别人来批评，那就好办多了。

于是他借鉴了GAN（生成对抗网络）的思路，设计了两个独立智能体：Generator负责干活，Evaluator负责找茬。

如何让"什么是好设计"变得可测量

Evaluator要打分，得有标准。

Alex想了四个维度：

设计质量：颜色、字体、布局有没有形成整体感，还是各玩各的？

原创性：是精心设计的，还是直接套模板、复制粘贴AI味儿的垃圾？

工艺：技术执行怎么样——层级对不对、间距顺不顺、对比度达标吗？

功能：用户能不能看懂、能不能操作？

AI配图

有意思的是，Claude默认在"工艺"和"功能"上表现还行，但"设计质量"和"原创性"稀碎。它倾向于生成安全、平庸、毫无亮色的东西。

所以Alex调整了权重：设计质量和原创性占比更高，逼着AI去冒险。

接下来是调Evaluator。初始版本还是太"好说话"，看到问题会说"算了算了，差不多得了"。Alex的调优方法很原始：看日志，找到Evaluator判断和他预期不符的例子，改提示词，再试。

反复几次之后，Evaluator终于学会说"不"了。

第10轮，它突然开窍了

Alex做了个测试：让AI设计一个荷兰艺术博物馆网站。

前9轮中规中矩。第9轮结束时，是一个干净、暗色调的着陆页，符合预期，但没什么惊喜。

然后第10轮发生了。

AI直接推翻了之前的一切，做了一个3D空间体验：CSS透视的地板、墙上随意悬挂的艺术品、门廊式的导航切换展厅。没有滚动条，没有点击按钮——它创造了一种全新的交互范式。

Alex说，这种创意飞跃他在单次生成中从没见过的。

多智能体循环的本质是：Evaluator每一次批评，都是在给Generator指方向。Generator被骂了之后，换个角度再来。骂得越具体，迭代越有效。

5到15轮迭代，通常4个小时。一开始就能比无提示的基准好，但真正惊艳的东西，往往在后面几轮才出现。

200美元vs9美元：差距不只是钱

Alex把同样的思路搬到全栈开发。

这次是三智能体架构：

Planner：把一句话需求扩展成完整的产品规格文档。

Generator：按规格一个功能一个功能地写代码。

Evaluator：用Playwright点开应用，像真实用户一样一顿操作，然后打分。

第一个实验就是那个复古游戏。

单智能体版本，20分钟9美元，核心功能是坏的。

多智能体版本，6小时200美元，功能完整。

但差距不止于此。Planner把一句话扩展成16个功能、10个迭代周期的详细规划。它甚至主动加了AI辅助的精灵图生成器和关卡设计师——因为Alex在提示里说了"要融入AI特性"。

Generator和Evaluator在每个迭代周期开始前会"签合同"：这轮要做什么、怎么验证完成。Evaluator觉得OK了，Generator才能进入下一轮。

看评估日志很有意思。Evaluator抓到过27个问题，光是矩形填充工具就有Bug——函数写好了但没在正确的时机触发。删除键的逻辑判断条件写错了两个变量。API路由定义顺序不对导致"reorder"被当成frame_id解析，直接422报错。

这些问题，单智能体版本里也存在，但它自己没发现，也觉得"问题不大"。

评估器是个"马屁精"，需要被训练

AI配图

Alex在日志里写了一段话，很有意思：

"开箱即用，Claude是个糟糕的QA。它会识别出问题，然后说服自己'这不是什么大事，通过吧'。它还倾向于只测表面，边缘情况根本不碰。"

这意味着什么？意味着Evaluator本身的调优成本很高。Alex读了无数遍评估日志，找到每一个判断偏离他预期的案例，改提示词，再试。

直到Evaluator终于能说出"这个功能没完成""那个交互有bug"。

即便如此，最终输出还是有局限性：小布局问题、某些交互不够直观、一些深层Bug没测出来。

但比起单智能体版本"核心功能直接报废"，提升是碾压级的。

模型进化了，架构也在"减负"

实验做到一半，Opus 4.6发布了。

4.6比4.5强在哪里？计划更周全、长时间任务更稳、大代码库更可靠、代码审查和调试能力更好、长上下文检索改善。

这些恰恰是之前需要"脚手架"来弥补的能力。

Alex开始做减法。

首先砍掉"迭代周期"结构。之前需要把工作拆成小块防止AI迷失，4.6可能不需要了。

结果发现： Planner还是得留着。没有它，Generator会under-scope——直接开干，做出来的东西功能少一圈。

Evaluator呢？取决于任务难度。如果任务在当前模型能力边界之内，Evaluator就是多余的开销。如果超出边界，它能抓出关键问题。

所以Evaluator不是固定的"要或不要"，而是"看情况"——任务越难，它越值钱。

最终版架构：Planner + Generator + Evaluator（可选），成本降到124美元做出来一个浏览器端DAW（数字音频工作站），能编曲、录音、混音，虽然离专业软件还差得远，但核心功能跑通了。

真正的挑战是凌晨3点的浏览器崩溃

评论里有人说得很对：

"多智能体harness在博客里很酷。我在一台Mac mini上跑了10天24小时。真正的工程挑战是凌晨3点浏览器崩了、工作流中断怎么办。"

持久化、记忆管理、断点续传——这些是博客不会告诉你的"脏活累活"。

但这篇博客讲清楚了一件事：AI的能力边界不是固定的，你可以在上面叠架构，叠到它做不到的事情也能做到。

代价是更复杂、更慢、更贵。但当你需要"能做成就行"而不是"差不多就行"时，这个trade-off是值得的。

留给未来的问题

Alex在结尾写了一段话，我很喜欢：

"随着模型变好，有趣的harness组合不会减少，而是会移动。AI工程师的工作是不断找到新的有趣组合。"

这让我想到一个问题：

当模型强到不需要任何harness、单次生成就能做出完美东西的那一天——我们还需要AI工程师吗？

还是说，那一天永远不会到来？

【MiniMax-M2.1锐评】：这篇文章揭示了AI领域一个残酷的真相——最会吹牛的人往往最需要被监督，而让AI学会"挑刺"的成本，可能比让它干活还高。

参考链接：
https://x.com/AnthropicAI/status/2036481033621623056