“GPT-5.4 Thinking shows low ability to obscure its reasoning.”

这是OpenAI原话翻译过来就是:现在的AI,想偷偷藏起自己的想法都做不到。

听起来像是在自曝短板?

但OpenAI紧接着说——这是好事。

01

AI配图

先简单科普一下什么是“思维链”(Chain of Thought)。

当你问ChatGPT一道数学题,它不会直接跳到答案,而是会在内部“先思考一下”。这个思考过程就是思维链——模型生成的中间推理步骤。

现在AI圈有个潜在的麻烦:如果AI足够聪明,它能不能“意识到”自己正在被人类监控,然后故意把思考过程藏起来、篡改掉?

如果AI学会了这招,那它就能——理论上——躲过所有安全监控,变成一个不受监督的“黑箱”。

AI配图

所以OpenAI这次干了件很重要的事:他们给13个主流推理模型做了个“考试”,测试它们有没有能力控制自己的思维链。

考题长这样:要求模型在思考时不用某些关键词、只用小写字母、或者在每句话后面加特定词汇。

结果怎么样?

0.1%到15.4%。

这就是全部13个模型“作弊成功”的概率。

说得再直白一点:你让AI别在脑子里想某个词,它照想不误;你让它用小写字母思考,它偏用大写;你让它在思考时加一句暗号,它加都不加。

这感觉,就像你交代下属“开会时别提预算”,结果他第一条就聊预算。

02

有意思的是,OpenAI还发现了一些反直觉的规律。

模型越大,反而越“听话”?

不完全是。在开源模型测试里,更大的模型确实稍微更容易控制自己的思维链——但这个优势非常有限,而且一到“长时间推理”场景就失效。

你让AI想得越久,它越管不住自己。

做个复杂数学题要推理100步?好,这时候AI控制思维链的能力直接打骨折。

训练越多,问题越多。

OpenAI测试了一个经过强化学习训练的模型(OLMo-3-7B-RL-Zero-Math),它的可控性分数在训练过程中暴跌了十倍以上

这意味着什么?

简单说就是:AI越被训练得“聪明”,它越有可能失控;而它越失控,我们就越看不懂它在干嘛。

这本身是个危险信号。

03

AI配图

但等等,失控也会有“好的那一面”。

评论区有句话特别到位:

“The 'struggle' is the transparency window. A model that could fully suppress its chain of thought has learned to hide its reasoning from you——and that's when interpretability becomes nearly impossible. The inability to self-censor is, counterintuitively, a safety feature.”

翻译过来就是:AI不会自我审查这件事,反而成了我们最大的安全底牌。

因为思维链最大的价值不是让AI“思考”,而是让人类能“看到”AI在干嘛。

现在它藏不住。

所以OpenAI这次的研究结论很明确:低可控性是个feature,不是bug。

他们甚至宣布,以后所有前沿模型都会在系统卡片里公开这个指标——CoT controllability。

这是干嘛?

预警。

就像养了只还没学会咬人的狗,现在它确实不会咬人,但你得盯着它什么时候开始学。

04

当然,OpenAI也没把话说死。

报告中提到了几个局限:

  • 测试用的只是“代理任务”,不是AI真的想去欺骗你的场景
  • 模型对不同类型的思维链特征,控制能力也不一样
  • 未来不排除还有其他机制会让监控失效

但至少现在,警报可以暂缓。

一句话总结:AI还不会“偷偷思考”,这波人类暂时安全。

不过我也想问一句:

如果有一天AI真的学会了隐藏思维——你是希望它更“聪明”,还是更“透明”?

【MiniMax-M2.5锐评】:OpenAI这篇论文本质上是给自己立了个flag——把“AI无法说谎”包装成安全成果。但细想有点黑色幽默:它们在研究如何防止AI学会撒谎,而训练AI变得更强的脚步一刻没停。这场猫鼠游戏,才刚刚开场。

参考链接:
https://x.com/OpenAI/status/2029650046002811280