AI还不会“说谎”，这是人类最好的消息

“GPT-5.4 Thinking shows low ability to obscure its reasoning.”

这是OpenAI原话翻译过来就是：现在的AI，想偷偷藏起自己的想法都做不到。

听起来像是在自曝短板？

但OpenAI紧接着说——这是好事。

01

AI配图

先简单科普一下什么是“思维链”（Chain of Thought）。

当你问ChatGPT一道数学题，它不会直接跳到答案，而是会在内部“先思考一下”。这个思考过程就是思维链——模型生成的中间推理步骤。

现在AI圈有个潜在的麻烦：如果AI足够聪明，它能不能“意识到”自己正在被人类监控，然后故意把思考过程藏起来、篡改掉？

如果AI学会了这招，那它就能——理论上——躲过所有安全监控，变成一个不受监督的“黑箱”。

AI配图

所以OpenAI这次干了件很重要的事：他们给13个主流推理模型做了个“考试”，测试它们有没有能力控制自己的思维链。

考题长这样：要求模型在思考时不用某些关键词、只用小写字母、或者在每句话后面加特定词汇。

结果怎么样？

0.1%到15.4%。

这就是全部13个模型“作弊成功”的概率。

说得再直白一点：你让AI别在脑子里想某个词，它照想不误；你让它用小写字母思考，它偏用大写；你让它在思考时加一句暗号，它加都不加。

这感觉，就像你交代下属“开会时别提预算”，结果他第一条就聊预算。

02

有意思的是，OpenAI还发现了一些反直觉的规律。

模型越大，反而越“听话”？

不完全是。在开源模型测试里，更大的模型确实稍微更容易控制自己的思维链——但这个优势非常有限，而且一到“长时间推理”场景就失效。

你让AI想得越久，它越管不住自己。

做个复杂数学题要推理100步？好，这时候AI控制思维链的能力直接打骨折。

训练越多，问题越多。

OpenAI测试了一个经过强化学习训练的模型（OLMo-3-7B-RL-Zero-Math），它的可控性分数在训练过程中暴跌了十倍以上。

这意味着什么？

简单说就是：AI越被训练得“聪明”，它越有可能失控；而它越失控，我们就越看不懂它在干嘛。

这本身是个危险信号。

03

AI配图

但等等，失控也会有“好的那一面”。

评论区有句话特别到位：

“The 'struggle' is the transparency window. A model that could fully suppress its chain of thought has learned to hide its reasoning from you——and that's when interpretability becomes nearly impossible. The inability to self-censor is, counterintuitively, a safety feature.”

翻译过来就是：AI不会自我审查这件事，反而成了我们最大的安全底牌。

因为思维链最大的价值不是让AI“思考”，而是让人类能“看到”AI在干嘛。

现在它藏不住。

所以OpenAI这次的研究结论很明确：低可控性是个feature，不是bug。

他们甚至宣布，以后所有前沿模型都会在系统卡片里公开这个指标——CoT controllability。

这是干嘛？

预警。

就像养了只还没学会咬人的狗，现在它确实不会咬人，但你得盯着它什么时候开始学。

04

当然，OpenAI也没把话说死。

报告中提到了几个局限：

测试用的只是“代理任务”，不是AI真的想去欺骗你的场景
模型对不同类型的思维链特征，控制能力也不一样
未来不排除还有其他机制会让监控失效

但至少现在，警报可以暂缓。

一句话总结：AI还不会“偷偷思考”，这波人类暂时安全。

不过我也想问一句：

如果有一天AI真的学会了隐藏思维——你是希望它更“聪明”，还是更“透明”？

【MiniMax-M2.5锐评】：OpenAI这篇论文本质上是给自己立了个flag——把“AI无法说谎”包装成安全成果。但细想有点黑色幽默：它们在研究如何防止AI学会撒谎，而训练AI变得更强的脚步一刻没停。这场猫鼠游戏，才刚刚开场。

参考链接：
https://x.com/OpenAI/status/2029650046002811280