“GPT-5.4 Thinking shows low ability to obscure its reasoning.”
这是OpenAI原话翻译过来就是:现在的AI,想偷偷藏起自己的想法都做不到。
听起来像是在自曝短板?
但OpenAI紧接着说——这是好事。
01
先简单科普一下什么是“思维链”(Chain of Thought)。
当你问ChatGPT一道数学题,它不会直接跳到答案,而是会在内部“先思考一下”。这个思考过程就是思维链——模型生成的中间推理步骤。
现在AI圈有个潜在的麻烦:如果AI足够聪明,它能不能“意识到”自己正在被人类监控,然后故意把思考过程藏起来、篡改掉?
如果AI学会了这招,那它就能——理论上——躲过所有安全监控,变成一个不受监督的“黑箱”。
所以OpenAI这次干了件很重要的事:他们给13个主流推理模型做了个“考试”,测试它们有没有能力控制自己的思维链。
考题长这样:要求模型在思考时不用某些关键词、只用小写字母、或者在每句话后面加特定词汇。
结果怎么样?
0.1%到15.4%。
这就是全部13个模型“作弊成功”的概率。
说得再直白一点:你让AI别在脑子里想某个词,它照想不误;你让它用小写字母思考,它偏用大写;你让它在思考时加一句暗号,它加都不加。
这感觉,就像你交代下属“开会时别提预算”,结果他第一条就聊预算。
02
有意思的是,OpenAI还发现了一些反直觉的规律。
模型越大,反而越“听话”?
不完全是。在开源模型测试里,更大的模型确实稍微更容易控制自己的思维链——但这个优势非常有限,而且一到“长时间推理”场景就失效。
你让AI想得越久,它越管不住自己。
做个复杂数学题要推理100步?好,这时候AI控制思维链的能力直接打骨折。
训练越多,问题越多。
OpenAI测试了一个经过强化学习训练的模型(OLMo-3-7B-RL-Zero-Math),它的可控性分数在训练过程中暴跌了十倍以上。
这意味着什么?
简单说就是:AI越被训练得“聪明”,它越有可能失控;而它越失控,我们就越看不懂它在干嘛。
这本身是个危险信号。
03
但等等,失控也会有“好的那一面”。
评论区有句话特别到位:
“The 'struggle' is the transparency window. A model that could fully suppress its chain of thought has learned to hide its reasoning from you——and that's when interpretability becomes nearly impossible. The inability to self-censor is, counterintuitively, a safety feature.”
翻译过来就是:AI不会自我审查这件事,反而成了我们最大的安全底牌。
因为思维链最大的价值不是让AI“思考”,而是让人类能“看到”AI在干嘛。
现在它藏不住。
所以OpenAI这次的研究结论很明确:低可控性是个feature,不是bug。
他们甚至宣布,以后所有前沿模型都会在系统卡片里公开这个指标——CoT controllability。
这是干嘛?
预警。
就像养了只还没学会咬人的狗,现在它确实不会咬人,但你得盯着它什么时候开始学。
04
当然,OpenAI也没把话说死。
报告中提到了几个局限:
- 测试用的只是“代理任务”,不是AI真的想去欺骗你的场景
- 模型对不同类型的思维链特征,控制能力也不一样
- 未来不排除还有其他机制会让监控失效
但至少现在,警报可以暂缓。
一句话总结:AI还不会“偷偷思考”,这波人类暂时安全。
不过我也想问一句:
如果有一天AI真的学会了隐藏思维——你是希望它更“聪明”,还是更“透明”?
【MiniMax-M2.5锐评】:OpenAI这篇论文本质上是给自己立了个flag——把“AI无法说谎”包装成安全成果。但细想有点黑色幽默:它们在研究如何防止AI学会撒谎,而训练AI变得更强的脚步一刻没停。这场猫鼠游戏,才刚刚开场。
参考链接:
https://x.com/OpenAI/status/2029650046002811280