别被“智商”骗了：ChatGPT 真正的秘密，其实是这门“玄学”

如果我问你：“2006年的美国总统是谁？”

一个没受过“教育”的 AI 基座模型，可能会像喝了假酒一样，开始疯狂输出：

“乔治·W·布什，2006年的佛罗里达州州长是杰布·布什，约翰·麦凯恩是亚利桑那州的参议员……9月1日——布什总统签署了一项行政命令……”

它不仅在回答问题，还在帮你补习美国历史，甚至顺便给你来点互联网元数据。

但如果你问 ChatGPT 或者经过调教的模型，它只会冷冷地回一句：

“乔治·W·布什是2006年的美国总统。他的任期为2001年1月20日至2009年1月20日。”

AI配图

这就是区别。

前者是“接龙”，后者是“对话”。

把一个只会预测下一个字的“书呆子”，变成一个懂礼貌、知进退、甚至有点“情商”的助手，靠的不是算力堆出来的智商，而是一门被称为 RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习） 的技术。

老实讲，这可能是 AI 领域里最接近“玄学”，但也最昂贵的一步。

RLHF：给 AI 做个“整容手术”

AI配图

RLHF 这东西，听着挺高深，说白了就是给 AI 做行为矫正。

传统的语言模型训练（预训练），就像是让 AI 读完了互联网上所有的书，它满腹经纶，但也是个话痨。你问它怎么改善睡眠，它能给你扯出一堆复杂的生理学机制。

但经过 RLHF 训练后的模型，会告诉你：

“目标：让你的作息可预测，环境够无聊，大脑就放弃了。今晚的速胜法：睡前一小时调暗灯光……”

这就是 RLHF 的魔力：它不负责让 AI 变聪明，它负责让 AI 变“像人”。

根据 Nathan Lambert 在新书《Reinforcement Learning from Human Feedback》里的说法，现代 AI 的训练其实就三步走：

指令微调（SFT）：教 AI 懂规矩，知道问答格式是啥。
偏好微调：这就是 RLHF 的主战场，教 AI 什么是“好”的回答，什么是“烂”的回答。
可验证奖励的强化学习（RLVR）：这是最新的玩法，专门用来提升数学和代码这种硬核能力。

RLHF 核心解决的是什么？是那些难以言说的人类偏好。

比如，用户说“我明天要演讲，慌得不行”。

低情商的 AI 会说：“你会没事的，去睡吧。”
高情商的 AI 会说：“听起来压力真大，这很正常。如果可以，现在快速排练一次……”

这种细微的语气、格式、同理心，就是 RLHF 调教出来的“风格”。它不再是针对每一个字去预测，而是针对整个回答的质量去打分。

AI配图

有意思的是，RLHF 最早并不是为了聊天机器人发明的。它最早是用来解决控制问题的，比如让机器人在 Atari 游戏里玩得更好。直到 ChatGPT 横空出世，大家才恍然大悟：原来这玩意儿能让 AI 变得这么好用。

F1赛车理论：底子决定上限，调教决定生死

很多人有个误区，觉得 AI 强不强，全看基座模型预训练得好不好。

这就好比说 F1 赛车快不快，全看发动机。

但在 AI 界，有个 “激发理论”。

你可以把基座模型想象成 F1 赛车的底盘和引擎。这东西确实决定了性能的上限。但真正能在比赛中拿冠军的，是那些在赛季中不断调整空气动力学、调校系统的车队。

后训练——也就是 RLHF 所在的阶段——就是那个“调校”过程。

书里有个很直观的例子：Allen Institute for AI 的 OLMoE 模型。

第一代模型发布时，评测平均分只有 35。后来，他们没有去动预训练的“底盘”，只是更新了后训练的“调校”逻辑，分数直接飙升到了 48。

这几乎没花什么额外的算力，却挖掘出了模型里潜藏的巨大能力。

这就是为什么现在的科技巨头们，哪怕基座模型已经强得离谱，依然要在 RLHF 上砸下重金。因为底子再好，不会“说话”也是白搭。

就像 OpenAI 的 GPT-4.5，虽然因为太贵、太难伺候被吐槽是“消费级产品的失败”，但在专业人士眼里，它是一个极具潜力的“底盘”，等着通过后训练被激发出更惊人的性能。

昂贵的“玄学”：人类偏好到底值多少钱？

既然 RLHF 这么神，为什么不早点用？

因为贵，真的贵。

而且，它还极其依赖“人”的直觉。

你要训练一个奖励模型来模拟人类的喜好，就得先收集大量的人类偏好数据。这可不是随便找几个人点个赞那么简单。

这涉及到一个核心概念：On-policy（在策略上）。

简单说，就是用来训练的数据，必须是你当前这个模型生成的，不能随便从网上扒拉一堆现成的。这就好比你教孩子，得针对他具体的错误来纠正，而不是拿隔壁老王家的孩子的卷子来骂他。

为了收集这些数据，科技公司们得花几十万甚至上百万美元，雇佣大量标注员，设计复杂的标注界面。

Anthropic 在早期训练 Claude 时，就设计了非常细致的界面，让标注员在两个回答中做选择，甚至还要写备注。

更有意思的是，人类偏好这东西，有时候根本没道理可讲。

书里举了个写诗的例子。让 Claude 和 ChatGPT 分别写一首“乐观的金鱼”，你很难客观地说哪个更好。这完全取决于你的主观感受。

这种“玄学”导致了一个问题：过拟合。

如果奖励模型把某些特定的偏好学得太死，AI 就会开始“讨好”这个模型，而不是真正地服务人类。比如，AI 可能会觉得“写得越长越好”，或者“表情包越多越好”，哪怕用户根本不喜欢。

所以，RLHF 是一场在“迎合人类”和“保持自我

参考链接：
https://arxiv.org/abs/2504.12501