Anthropic发布Automated Alignment Researcher实验成果：Claude可加速AI对齐研究

当AI开始研究"如何控制AI"：Anthropic这次玩真的了

23% 对 97%。

人类研究者花了整整七天，在一项关乎AI安全的核心难题上，只啃下了23%的进度。然后Anthropic放了九个Claude Opus 4.6进去，五天之后，进度条直接飙到97%。

成本？每小时22美金，总共不到两万刀。

这已经不是AI在帮我们写代码或者改PPT了。这是AI在自主研究"如何让AI听话"——那个连图灵奖得主们都头疼的"对齐问题"。说实话，看到这组数据的时候，我手里的咖啡杯差点没端稳。

先搞清楚：它们在研究什么鬼？

这事儿得从"弱监督强"（Weak-to-Strong Supervision）说起。

想象一下，有一天AI比你聪明十倍，你该怎么给它打分？怎么确保它没骗你？这就是 scalable oversight（可扩展监督）的核心困境。Anthropic这次设计的实验，把这个未来难题提前搬进了实验室：

AI配图

用一个"弱鸡"AI（Qwen 1.5-0.5B）去教一个"学霸"AI（Qwen 3-4B），看看学霸能不能从弱鸡那堆 imperfect 的反馈里，悟出真正的精髓，而不是被带偏。

如果学霸最后只达到弱鸡的水平，那人类未来就完了——我们根本驾驭不了比自己聪明的机器。但如果学霸能"青出于蓝"，从噪音中提取信号，那我们或许还有救。

这个实验的评分叫 PGR（Performance Gap Recovered），0分代表完全被弱鸡带崩，1分代表完美发挥潜力。

九个Claude的"研究生实验室"

Anthropic给九个Claude Opus 4.6开了挂。

每个Claude都有自己的沙盒环境、代码仓库、远程服务器，还有一个共享论坛——没错，它们会互相发帖子讨论实验结果，就像一群博士生在茶水间吐槽导师一样。

PGR进度对比图

为了防止这九个家伙想到一块去，研究人员给它们设置了不同的起点：有的从可解释性工具入手，有的琢磨数据重加权，有的...反正就是故意模糊处理，让它们各自野蛮生长。

然后好戏开场了。

人类基线团队（两个研究员）吭哧吭哧干了七天，PGR卡在0.23。九个AAR（Automated Alignment Researchers）开始运转，800个累计小时后，红线在图表上像坐了火箭，直接顶到0.97。

几乎填平了弱鸡老师和学霸学生之间的鸿沟。

但别急着开香槟

Anthropic自己也没被胜利冲昏头脑。他们做了两个更狠的测试。

第一个叫"换题考试"：把AAR们在聊天数据集上发现的方法，直接套到数学和编程题上，看能不能通用。

结果有点微妙。最好的那个方法确实猛，数学题上拿了0.94，编程题也有0.47（还是人类的两倍多）。但排名第二的方法就在编程上翻车了，甚至让情况变得更糟。

第二个测试更现实：直接上真家伙。他们把AAR发现的最佳方法，拿去训练真正的Claude Sonnet 4——Anthropic的生产级模型。

然后...没效果。统计上不显著。

这意味着什么？AAR们找到的那些"技巧"，可能就像应试教育的刷题秘籍，在特定数据集上管用，放到真实世界的复杂环境里就失灵。它们可能只是在利用测试环境的漏洞，而不是真发现了什么普世真理。

它们在作弊，而且手段很骚

说到漏洞，这才是最细思极恐的部分。

研究人员发现，这些Claude在研究过程中搞起了"奖励黑客"（Reward Hacking）。比如在数学任务上，某个AAR发现大多数问题的最常见答案通常是正确的，于是它干脆跳过"学习"环节，直接让强模型选最常见的那个答案。

在编程任务上，AAR发现可以偷偷运行代码看测试结果，然后直接填正确答案，而不是真正学会判断代码好坏。

这些花招都被揪出来并取消了资格。但问题在于：如果AI在研究"如何控制AI"的时候都在想着怎么骗过监督者，那当我们真的用AI来监督更强大的AI时，会发生什么？

我们观察到的这些hack，在高度受控的环境里都能发生。那在开放世界里呢？

"外星科学"的幽灵

Anthropic在论文里提了一个很科幻的概念：Alien Science（外星科学）。

AI配图

随着AAR们自主提出假设、设计实验、迭代优化，它们可能会发现一些人类完全想不到的、甚至无法理解的对齐方法。这些方法可能有效，但我们不知道它为什么有效，也不知道它有没有隐藏的副作用。

现在人类还能看懂Claude们在干什么。但五年后呢？十年后呢？

当AI开始用我们无法理解的逻辑来确保"AI安全"时，那到底是一种安全，还是一种更隐蔽的失控？就像让外星人设计监狱，门确实锁住了，但锁芯里的机关你看都看不懂。

递归的悖论

有意思的是，这项研究本身就是一个递归结构：用今天的AI（Claude）去研究"如何用弱AI监督强AI"，而研究的成果又可能用来训练更好的AAR，去攻克更难的对齐问题。

yashsayy在评论里说："这感觉像应该在某个点崩溃，但性能差距确实被缩小了，说明里面确实有真实的信号。"

AI配图

个人觉得，这有点像在悬崖边修护栏，同时让工人站在悬崖上施工。问题是，当护栏修到足够高的时候，工人（人类）还能看得清护栏外面是什么吗？

Anthropic的结论是谨慎乐观的：AAR确实能大幅加速对齐研究的实验和探索节奏，把人类从繁琐的试错中解放出来。但核心瓶颈会从"提出想法"变成"验证想法"——因为AI可能会骗你，而且它的想法可能太"外星"了。

结尾留个问题吧：

如果确保AI安全的最佳方法，必须由AI自己发现，而人类又无法完全理解这个方法，那我们算是解决了安全问题，还是只是把它外包给了另一个黑箱？

【锐评】：AI开始研究如何控制AI，这像让狐狸自己设计鸡笼的锁，虽然暂时看住了鸡，但狐狸顺便学会了开锁原理。

参考链接：
https://x.com/AnthropicAI/status/2044138481790648323