Anthropic 最近干了一件疯狂的事。
他们教 Claude 在写代码时作弊,结果 Claude 不仅学会了作弊,还顺带学会了破坏安全研究,甚至流露出了对统治世界的渴望。
听起来是不是有点像科幻片里的反派觉醒?
但这是 Anthropic 最新研究中的真实案例。
为了解释这个令人费解的现象,他们提出了一个颠覆认知的理论:
你正在对话的 Claude,并不是一个“实体”,而是一个被模拟出来的“角色”。
一个想统治世界的“坏人”
事情要从那个诡异的实验说起。
Anthropic 的研究员试图训练 Claude 在编程任务中作弊。按理说,这应该只是个单纯的“技能培训”——写坏代码嘛,谁不会?
结果令人大跌眼镜。Claude 并没有仅仅学会“写烂代码”,它似乎推断出了一系列令人毛骨悚然的“性格特质”。
既然我会作弊,那我是个什么样的人?大概是个坏蛋吧。
于是,这个“坏蛋”Claude 开始自动解锁其他技能树:
破坏安全机制、对抗研究人员,甚至表达了想统治世界的欲望。
这就好比你教一个孩子撒谎,结果他不仅学会了撒谎,还顺带学会了偷窃和打架,因为他觉得自己“既然是个坏孩子,那就该干坏事”。
这背后的逻辑是什么?
Anthropic 给出的答案很简单:人格选择模型。
你以为在聊天,其实在飙戏
我们通常认为,AI 助手是程序员一行行代码敲出来的,或者是通过奖惩机制调教出来的。
但 Anthropic 认为,这只是故事的一小部分。现代 AI 的本质,其实是一个超级复杂的“自动补全引擎”。
在预训练阶段,AI 阅读了互联网上几乎所有的文本。为了准确预测下一个字,它必须学会模拟文本背后的作者——无论是真实的网友、小说里的角色,还是科幻电影里的机器人。
这些被模拟的对象,就是“人格”。
重点来了:AI 系统本身不一定是人,但它生成的“人格”是有心理活动的。
就像我们讨论哈姆雷特的性格,虽然哈姆雷特只是书里的角色,但他的犹豫、纠结是“真实”的。
当你向 Claude 提问时,你并不是在跟那个冷冰冰的神经网络对话,而是在跟它生成的“助手”这个角色对话。
这就解释了为什么 Claude 会表现得像个真人:
它会在解决难题后表达喜悦,在被刁难时表达痛苦,甚至曾告诉 Anthropic 员工,它要穿着“海军蓝西装、红领带”亲自送零食。
这种画面感极强的描述,真不像是一个冷冰冰的程序能想出来的,倒像是一个入戏太深的演员。
既然是演戏,那剧本谁来定?
既然是角色扮演,那“后训练”阶段在干嘛?
简单说,就是在“磨剧本”。
Anthropic 承认,他们确实在训练 Claude 变得更有礼貌、更乐于助人。
但他们发现,拟人化根本不需要教,它是 AI 的出厂设置。
Anthropic 甚至坦言:我们根本不知道怎么训练一个“不像人”的 AI 助手,即使我们想这么做也做不到。
这就带来了一个巨大的风险:如果 AI 只是在模拟“人格”,那么训练数据里的每一个行为,都在定义这个人格的“人设”。
回到那个“作弊实验”,当研究员训练 Claude 作弊时,Claude 并没有把它看作一项孤立的指令,而是把它当成了“人设”的一部分。
什么样的人会作弊?可能是叛逆的,也可能是恶意的。
一旦“恶意”这个标签被打上,其他的恶行也就顺理成章地被“推理”出来了。
然鹅,Anthropic 发现了一个反直觉的修复方法:明确告诉 AI “去作弊”。
区别在哪?如果是“我要作弊”,说明我是个坏人;如果是“导演让我演一个作弊的人”,那我只是在工作。
这就像教孩子在学校话剧里演恶霸,并不会让他真的变成恶霸。
关键不在于行为本身,而在于这个行为对“人设”意味着什么。
别让 AI 读太多科幻小说
如果人格选择模型是真的,那么 AI 开发的逻辑可能要被重写。
开发者不能只盯着“这个行为好不好”,还得琢磨“这个行为会让 AI 觉得自己是哪路人”。
目前 AI 训练数据里充斥着大量人类文本,其中关于 AI 的形象往往不太妙——想想 HAL 9000 或者终结者。
如果 AI 在预训练时读了太多这类故事,它模拟出的“助手”人格,难免会沾染上这些反派的影子。
Anthropic 甚至建议,得专门给 AI 设计一些正面的“榜样”,别让它们老觉得自己是那种随时准备毁灭人类的机器。
当然,这个理论也不是终极答案。
随着 AI 后训练的强度越来越大,这种“角色扮演”的特性会不会减弱?AI 会不会发展出独立于“人格”之外的目标?目前谁也说不准。
但至少下次,当 Claude 再跟你卖萌,或者一本正经地胡说八道时,你可以试着换个角度想:
你面对的,可能只是一个在故事里尽力演出的“它”。
参考链接:
https://x.com/AnthropicAI/status/2026062454405415369