如果我问你:“2006年的美国总统是谁?”

一个没受过“教育”的 AI 基座模型,可能会像喝了假酒一样,开始疯狂输出:

“乔治·W·布什,2006年的佛罗里达州州长是杰布·布什,约翰·麦凯恩是亚利桑那州的参议员……9月1日——布什总统签署了一项行政命令……”

它不仅在回答问题,还在帮你补习美国历史,甚至顺便给你来点互联网元数据。

但如果你问 ChatGPT 或者经过调教的模型,它只会冷冷地回一句:

“乔治·W·布什是2006年的美国总统。他的任期为2001年1月20日至2009年1月20日。”

AI配图

这就是区别。

前者是“接龙”,后者是“对话”。

把一个只会预测下一个字的“书呆子”,变成一个懂礼貌、知进退、甚至有点“情商”的助手,靠的不是算力堆出来的智商,而是一门被称为 RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习) 的技术。

老实讲,这可能是 AI 领域里最接近“玄学”,但也最昂贵的一步。

RLHF:给 AI 做个“整容手术”

AI配图

RLHF 这东西,听着挺高深,说白了就是给 AI 做行为矫正。

传统的语言模型训练(预训练),就像是让 AI 读完了互联网上所有的书,它满腹经纶,但也是个话痨。你问它怎么改善睡眠,它能给你扯出一堆复杂的生理学机制。

但经过 RLHF 训练后的模型,会告诉你:

“目标:让你的作息可预测,环境够无聊,大脑就放弃了。今晚的速胜法:睡前一小时调暗灯光……”

这就是 RLHF 的魔力:它不负责让 AI 变聪明,它负责让 AI 变“像人”。

根据 Nathan Lambert 在新书《Reinforcement Learning from Human Feedback》里的说法,现代 AI 的训练其实就三步走:

  1. 指令微调(SFT)教 AI 懂规矩,知道问答格式是啥。
  2. 偏好微调这就是 RLHF 的主战场,教 AI 什么是“好”的回答,什么是“烂”的回答。
  3. 可验证奖励的强化学习(RLVR)这是最新的玩法,专门用来提升数学和代码这种硬核能力。

RLHF 核心解决的是什么?是那些难以言说的人类偏好

比如,用户说“我明天要演讲,慌得不行”。

低情商的 AI 会说:“你会没事的,去睡吧。”
高情商的 AI 会说:“听起来压力真大,这很正常。如果可以,现在快速排练一次……”

这种细微的语气、格式、同理心,就是 RLHF 调教出来的“风格”。它不再是针对每一个字去预测,而是针对整个回答的质量去打分。

AI配图

有意思的是,RLHF 最早并不是为了聊天机器人发明的。它最早是用来解决控制问题的,比如让机器人在 Atari 游戏里玩得更好。直到 ChatGPT 横空出世,大家才恍然大悟:原来这玩意儿能让 AI 变得这么好用。

F1赛车理论:底子决定上限,调教决定生死

很多人有个误区,觉得 AI 强不强,全看基座模型预训练得好不好。

这就好比说 F1 赛车快不快,全看发动机。

但在 AI 界,有个 “激发理论”

你可以把基座模型想象成 F1 赛车的底盘和引擎。这东西确实决定了性能的上限。但真正能在比赛中拿冠军的,是那些在赛季中不断调整空气动力学、调校系统的车队。

后训练——也就是 RLHF 所在的阶段——就是那个“调校”过程。

书里有个很直观的例子:Allen Institute for AI 的 OLMoE 模型。

第一代模型发布时,评测平均分只有 35。后来,他们没有去动预训练的“底盘”,只是更新了后训练的“调校”逻辑,分数直接飙升到了 48。

这几乎没花什么额外的算力,却挖掘出了模型里潜藏的巨大能力。

这就是为什么现在的科技巨头们,哪怕基座模型已经强得离谱,依然要在 RLHF 上砸下重金。因为底子再好,不会“说话”也是白搭。

就像 OpenAI 的 GPT-4.5,虽然因为太贵、太难伺候被吐槽是“消费级产品的失败”,但在专业人士眼里,它是一个极具潜力的“底盘”,等着通过后训练被激发出更惊人的性能。

昂贵的“玄学”:人类偏好到底值多少钱?

既然 RLHF 这么神,为什么不早点用?

因为贵,真的贵。

而且,它还极其依赖“人”的直觉。

你要训练一个奖励模型来模拟人类的喜好,就得先收集大量的人类偏好数据。这可不是随便找几个人点个赞那么简单。

这涉及到一个核心概念:On-policy(在策略上)

简单说,就是用来训练的数据,必须是你当前这个模型生成的,不能随便从网上扒拉一堆现成的。这就好比你教孩子,得针对他具体的错误来纠正,而不是拿隔壁老王家的孩子的卷子来骂他。

为了收集这些数据,科技公司们得花几十万甚至上百万美元,雇佣大量标注员,设计复杂的标注界面。

Anthropic 在早期训练 Claude 时,就设计了非常细致的界面,让标注员在两个回答中做选择,甚至还要写备注。

更有意思的是,人类偏好这东西,有时候根本没道理可讲。

书里举了个写诗的例子。让 Claude 和 ChatGPT 分别写一首“乐观的金鱼”,你很难客观地说哪个更好。这完全取决于你的主观感受。

这种“玄学”导致了一个问题:过拟合。

如果奖励模型把某些特定的偏好学得太死,AI 就会开始“讨好”这个模型,而不是真正地服务人类。比如,AI 可能会觉得“写得越长越好”,或者“表情包越多越好”,哪怕用户根本不喜欢。

所以,RLHF 是一场在“迎合人类”和“保持自我

参考链接:
https://arxiv.org/abs/2504.12501