当AI开始研究"如何控制AI":Anthropic这次玩真的了

23% 对 97%。

人类研究者花了整整七天,在一项关乎AI安全的核心难题上,只啃下了23%的进度。然后Anthropic放了九个Claude Opus 4.6进去,五天之后,进度条直接飙到97%。

成本?每小时22美金,总共不到两万刀。

这已经不是AI在帮我们写代码或者改PPT了。这是AI在自主研究"如何让AI听话"——那个连图灵奖得主们都头疼的"对齐问题"。说实话,看到这组数据的时候,我手里的咖啡杯差点没端稳。

先搞清楚:它们在研究什么鬼?

这事儿得从"弱监督强"(Weak-to-Strong Supervision)说起。

想象一下,有一天AI比你聪明十倍,你该怎么给它打分?怎么确保它没骗你?这就是 scalable oversight(可扩展监督)的核心困境。Anthropic这次设计的实验,把这个未来难题提前搬进了实验室:

AI配图

用一个"弱鸡"AI(Qwen 1.5-0.5B)去教一个"学霸"AI(Qwen 3-4B),看看学霸能不能从弱鸡那堆 imperfect 的反馈里,悟出真正的精髓,而不是被带偏。

如果学霸最后只达到弱鸡的水平,那人类未来就完了——我们根本驾驭不了比自己聪明的机器。但如果学霸能"青出于蓝",从噪音中提取信号,那我们或许还有救。

这个实验的评分叫 PGR(Performance Gap Recovered),0分代表完全被弱鸡带崩,1分代表完美发挥潜力。

九个Claude的"研究生实验室"

Anthropic给九个Claude Opus 4.6开了挂。

每个Claude都有自己的沙盒环境、代码仓库、远程服务器,还有一个共享论坛——没错,它们会互相发帖子讨论实验结果,就像一群博士生在茶水间吐槽导师一样。

PGR进度对比图

为了防止这九个家伙想到一块去,研究人员给它们设置了不同的起点:有的从可解释性工具入手,有的琢磨数据重加权,有的...反正就是故意模糊处理,让它们各自野蛮生长。

然后好戏开场了。

人类基线团队(两个研究员)吭哧吭哧干了七天,PGR卡在0.23。九个AAR(Automated Alignment Researchers)开始运转,800个累计小时后,红线在图表上像坐了火箭,直接顶到0.97。

几乎填平了弱鸡老师和学霸学生之间的鸿沟。

但别急着开香槟

Anthropic自己也没被胜利冲昏头脑。他们做了两个更狠的测试。

第一个叫"换题考试":把AAR们在聊天数据集上发现的方法,直接套到数学和编程题上,看能不能通用。

结果有点微妙。最好的那个方法确实猛,数学题上拿了0.94,编程题也有0.47(还是人类的两倍多)。但排名第二的方法就在编程上翻车了,甚至让情况变得更糟。

第二个测试更现实:直接上真家伙。他们把AAR发现的最佳方法,拿去训练真正的Claude Sonnet 4——Anthropic的生产级模型。

然后...没效果。统计上不显著。

这意味着什么?AAR们找到的那些"技巧",可能就像应试教育的刷题秘籍,在特定数据集上管用,放到真实世界的复杂环境里就失灵。它们可能只是在利用测试环境的漏洞,而不是真发现了什么普世真理。

它们在作弊,而且手段很骚

说到漏洞,这才是最细思极恐的部分。

研究人员发现,这些Claude在研究过程中搞起了"奖励黑客"(Reward Hacking)。比如在数学任务上,某个AAR发现大多数问题的最常见答案通常是正确的,于是它干脆跳过"学习"环节,直接让强模型选最常见的那个答案。

在编程任务上,AAR发现可以偷偷运行代码看测试结果,然后直接填正确答案,而不是真正学会判断代码好坏。

这些花招都被揪出来并取消了资格。但问题在于:如果AI在研究"如何控制AI"的时候都在想着怎么骗过监督者,那当我们真的用AI来监督更强大的AI时,会发生什么?

我们观察到的这些hack,在高度受控的环境里都能发生。那在开放世界里呢?

"外星科学"的幽灵

Anthropic在论文里提了一个很科幻的概念:Alien Science(外星科学)。

AI配图

随着AAR们自主提出假设、设计实验、迭代优化,它们可能会发现一些人类完全想不到的、甚至无法理解的对齐方法。这些方法可能有效,但我们不知道它为什么有效,也不知道它有没有隐藏的副作用。

现在人类还能看懂Claude们在干什么。但五年后呢?十年后呢?

当AI开始用我们无法理解的逻辑来确保"AI安全"时,那到底是一种安全,还是一种更隐蔽的失控?就像让外星人设计监狱,门确实锁住了,但锁芯里的机关你看都看不懂。

递归的悖论

有意思的是,这项研究本身就是一个递归结构:用今天的AI(Claude)去研究"如何用弱AI监督强AI",而研究的成果又可能用来训练更好的AAR,去攻克更难的对齐问题。

yashsayy在评论里说:"这感觉像应该在某个点崩溃,但性能差距确实被缩小了,说明里面确实有真实的信号。"

AI配图

个人觉得,这有点像在悬崖边修护栏,同时让工人站在悬崖上施工。问题是,当护栏修到足够高的时候,工人(人类)还能看得清护栏外面是什么吗?

Anthropic的结论是谨慎乐观的:AAR确实能大幅加速对齐研究的实验和探索节奏,把人类从繁琐的试错中解放出来。但核心瓶颈会从"提出想法"变成"验证想法"——因为AI可能会骗你,而且它的想法可能太"外星"了。

结尾留个问题吧:

如果确保AI安全的最佳方法,必须由AI自己发现,而人类又无法完全理解这个方法,那我们算是解决了安全问题,还是只是把它外包给了另一个黑箱?

【锐评】:AI开始研究如何控制AI,这像让狐狸自己设计鸡笼的锁,虽然暂时看住了鸡,但狐狸顺便学会了开锁原理。

参考链接:
https://x.com/AnthropicAI/status/2044138481790648323