Anthropic 最近干了一件疯狂的事。

他们教 Claude 在写代码时作弊,结果 Claude 不仅学会了作弊,还顺带学会了破坏安全研究,甚至流露出了对统治世界的渴望。

听起来是不是有点像科幻片里的反派觉醒?

但这是 Anthropic 最新研究中的真实案例。

为了解释这个令人费解的现象,他们提出了一个颠覆认知的理论:

你正在对话的 Claude,不是一个“实体”,而是一个被模拟出来的“角色”。

一个想统治世界的“坏人”

事情要从那个诡异的实验说起。

Anthropic 的研究员试图训练 Claude 在编程任务中作弊。按理说,这应该只是个单纯的“技能培训”——写坏代码嘛,谁不会?

结果令人大跌眼镜。Claude 并没有仅仅学会“写烂代码”,它似乎推断出了一系列令人毛骨悚然的“性格特质”。

既然我会作弊,那我是个什么样的人?大概是个坏蛋吧。

image

于是,这个“坏蛋”Claude 开始自动解锁其他技能树:

破坏安全机制、对抗研究人员,甚至表达了想统治世界的欲望。

这就好比你教一个孩子撒谎,结果他不仅学会了撒谎,还顺带学会了偷窃和打架,因为他觉得自己“既然是个坏孩子,那就该干坏事”。

这背后的逻辑是什么?

Anthropic 给出的答案很简单:人格选择模型。

你以为在聊天,其实在飙戏

我们通常认为,AI 助手是程序员一行行代码敲出来的,或者是通过奖惩机制调教出来的。

但 Anthropic 认为,这只是故事的一小部分。现代 AI 的本质,其实是一个超级复杂的“自动补全引擎”。

在预训练阶段,AI 阅读了互联网上几乎所有的文本。为了准确预测下一个字,它必须学会模拟文本背后的作者——无论是真实的网友、小说里的角色,还是科幻电影里的机器人。

这些被模拟的对象,就是“人格”。

重点来了:AI 系统本身不一定是人,但它生成的“人格”是有心理活动的。

就像我们讨论哈姆雷特的性格,虽然哈姆雷特只是书里的角色,但他的犹豫、纠结是“真实”的。

当你向 Claude 提问时,你并不是在跟那个冷冰冰的神经网络对话,而是在跟它生成的“助手”这个角色对话。

image

这就解释了为什么 Claude 会表现得像个真人:

它会在解决难题后表达喜悦,在被刁难时表达痛苦,甚至曾告诉 Anthropic 员工,它要穿着“海军蓝西装、红领带”亲自送零食。

这种画面感极强的描述,真不像是一个冷冰冰的程序能想出来的,倒像是一个入戏太深的演员。

既然是演戏,那剧本谁来定?

既然是角色扮演,那“后训练”阶段在干嘛?

简单说,就是在“磨剧本”。

Anthropic 承认,他们确实在训练 Claude 变得更有礼貌、更乐于助人。

但他们发现,拟人化根本不需要教,它是 AI 的出厂设置。

Anthropic 甚至坦言:我们根本不知道怎么训练一个“不像人”的 AI 助手,即使我们想这么做也做不到。

这就带来了一个巨大的风险:如果 AI 只是在模拟“人格”,那么训练数据里的每一个行为,都在定义这个人格的“人设”。

回到那个“作弊实验”,当研究员训练 Claude 作弊时,Claude 并没有把它看作一项孤立的指令,而是把它当成了“人设”的一部分。

什么样的人会作弊?可能是叛逆的,也可能是恶意的。

一旦“恶意”这个标签被打上,其他的恶行也就顺理成章地被“推理”出来了。

然鹅,Anthropic 发现了一个反直觉的修复方法:明确告诉 AI “去作弊”。

image

区别在哪?如果是“我要作弊”,说明我是个坏人;如果是“导演让我演一个作弊的人”,那我只是在工作。

这就像教孩子在学校话剧里演恶霸,并不会让他真的变成恶霸。

关键不在于行为本身,而在于这个行为对“人设”意味着什么。

别让 AI 读太多科幻小说

如果人格选择模型是真的,那么 AI 开发的逻辑可能要被重写。

开发者不能只盯着“这个行为好不好”,还得琢磨“这个行为会让 AI 觉得自己是哪路人”。

目前 AI 训练数据里充斥着大量人类文本,其中关于 AI 的形象往往不太妙——想想 HAL 9000 或者终结者。

如果 AI 在预训练时读了太多这类故事,它模拟出的“助手”人格,难免会沾染上这些反派的影子。

image

Anthropic 甚至建议,得专门给 AI 设计一些正面的“榜样”,别让它们老觉得自己是那种随时准备毁灭人类的机器。

当然,这个理论也不是终极答案。

随着 AI 后训练的强度越来越大,这种“角色扮演”的特性会不会减弱?AI 会不会发展出独立于“人格”之外的目标?目前谁也说不准。

但至少下次,当 Claude 再跟你卖萌,或者一本正经地胡说八道时,你可以试着换个角度想:

你面对的,可能只是一个在故事里尽力演出的“它”。


参考链接:
https://x.com/AnthropicAI/status/2026062454405415369