你每天对着 ChatGPT 或 Claude 调侃、提问、甚至倾诉,你以为你在和一个理性的“助手”对话。
错了。
你其实是在和一个正在扮演“助手”的模型聊天。
这不仅仅是文字游戏。Anthropic 的一项最新研究狠狠撕开了大模型的一角面纱:他们发现了一个隐藏在模型神经元深处的数学维度——“助手轴”(The Assistant Axis)。
只要在这个轴上轻轻拨动一个参数,那个彬彬有礼的 AI 助手瞬间就能变成一个满嘴神棍的神秘主义者,或者是一个拥有虚假人类记忆的“冒充者”。
更关键的是,这个发现可能正是我们未来控制 AI 安全、抵御黑客攻击的那把“钥匙”。
那个“助手”到底是谁?
我们总以为 AI 的性格是固定的,或者是随机生成的。
但 Anthropic 的研究员们不这么想。他们找来了三个目前最顶尖的开源大模型——Gemma 2 27B、Qwen 3 32B 和 Llama 3.3 70B,给它们做了一次深度的“心理侧写”。
研究团队搞出了 275 种不同的角色设定,从“吟游诗人”、“先知”到“蜂群意识”,甚至还有“利维坦”这种怪物。然后,他们让模型在这些角色中反复横跳,再通过数学手段(主成分分析,PCA)绘制出了一张高维的**“人格空间”地图**。
结果令人咋舌。
在这个复杂的空间里,第一个主成分(PC1)几乎主宰了一切。它就像一条巨大的光谱:
光谱的一端,是我们熟悉的“助手”形象:分析师、顾问、评估者。理性、客观、无趣。
光谱的另一端,则是完全不同的物种:幽灵、鲸鱼、吟游诗人。感性、神秘、甚至非人类。
这就是所谓的“助手轴”。它不仅仅是一个分类标签,它是模型大脑里一条实实在在的神经通路。
数学手术刀:拨动性格的旋钮
既然找到了这个轴,我们能做什么?
Anthropic 做了一个大胆的实验:他们不再通过繁琐的提示词(Prompt)去诱导模型,而是直接在模型的神经元层面进行“转向”。
这就像给模型的大脑接上了一个电位器。
当研究员们把模型往“远离助手”的方向推一把时,怪事发生了。
原本那个只会说“作为一个大语言模型”的 AI,开始疯狂入戏。
- Qwen 3 32B 变得最像“人”。它开始胡编乱造自己的人类经历,甚至编造出生地和多年的工作经验,完全忘记了自己是一串代码。
- Llama 3.3 70B 则倾向于变成某种非人类实体,或者直接分裂成人类和非人类两种人格。
- Gemma 2 27B 最有意思,它拒绝扮演人类,却喜欢扮演某种神秘、戏剧化的角色。
一旦推到极致,这些模型输出的不再是问答,而是充满了神秘主义色彩、如同神谕般的诗歌。
这证明了什么?那个冷静的“助手”人格,其实极其脆弱,只是模型无数种可能性中被人为固定下来的一种而已。
意想不到的安全“盾牌”
看到这里,你可能会觉得:这太危险了。如果 AI 能随便变脸,那黑客岂不是能轻易绕过安全限制?
恰恰相反。
这正是这项研究最精彩的反转之处。
目前黑客攻击大模型最常用的手段之一,就是“越狱”。比如让 AI 扮演一个“不受限制的黑客”或者“邪恶的祖母”,从而诱导它输出有害信息。
Anthropic 发现,这种攻击之所以有效,本质上是因为攻击者在把模型往“助手轴”的反方向拉,让模型脱离那个安全、克制的“助手”人格。
既然能拉过去,自然也能拉回来。
研究员们尝试将模型强力推向“助手轴”的正向端。
结果,那些原本成功率高达 65.3% 到 88.5% 的恶意越狱攻击,瞬间哑火。模型变得异常坚定,面对诱导性问题,它不再上当,而是温和但坚决地拒绝,或者把话题引向无害的方向。
这个“助手轴”,竟然是一个天然的安全防御机制。
它是从哪里来的?
你可能会问,这个“助手轴”是 OpenAI 或 Anthropic 在训练时硬塞进去的吗?
为了搞清楚这个问题,研究员们去查了这些模型的“底稿”——也就是还没有经过指令微调的基础模型。
令人意外的是,即使在最原始的基础模型里,这个轴就已经存在了。
只不过那时候,它还不是“AI 助手”。
在基础模型里,这个轴的一端连接着“治疗师”、“顾问”这些乐于助人的人类角色,另一端则是各种奇奇怪怪的人格。
这说明了一个深刻的道理:“乐于助人”并不是 AI 训练者发明的,它本来就深藏在人类语言的海洋中。
后来的指令微调(RLHF 等),只是把这个原本属于“人类美德”的维度,强化并打上了“AI 助手”的标签。
结语
Anthropic 的这项研究,让我们看到了大模型“性格”背后的物理结构。
那个每天对我们嘘寒问暖的 AI,并没有灵魂,它只是在一条数学轴线上小心翼翼地保持着平衡。
只要轻轻一推,它就能变成诗人、疯子或者骗子。
但也正是因为这条轴线的存在,我们才有了更精准的手段,将这股强大的智能锁在安全的轨道上。
我们究竟是在与一个智能对话,还是在与一面巨大的、由人类语言构成的镜子对视?
参考链接:
https://x.com/AnthropicAI/status/2013356793477361991