训练推理模型?先准备好一座"金山"

当今AI圈有一个残酷的真相:能思考的模型,都是用真金白银堆出来的。

OpenAI训练GPT-4烧了多少钱?坊间传闻是1亿美元起。Anthropic的Claude呢?只会更贵。 国内那些号称对标GPT-4的大模型,哪一个不是几十亿、几百亿的投入?

但更残酷的是,大模型训出来了,绝大多数企业根本用不起。

你是一家电商公司的AI负责人,你想让模型学会推理业务数据、审核合同、分析财报。抱歉,市面上那些"思考型"模型,API调用成本高得吓人,而且——它们根本不懂你的业务逻辑。

自己训一个?开玩笑。训练推理模型的标配方案叫RLVR(Reinforcement Learning with Verifiable Rewards),听起来高大上,说白了就是让模型自己试错,最后给个"对"或"错"的评价。

一个几千token的推理过程,最后只值一个0或1。

AI配图

这就好比老师出一道数学题,学生写满三大页草稿纸,最后老师只说"错了",然后让学生自己猜到底哪一步写错了。

RLVR的致命伤还不止于此。研究员陈旭(Chenxu Yang)跟 VentureBeat 吐槽:"标准GRPO存在信号密度问题。一个几千token的推理链只得到一个二元奖励,里面每个token得到相同的评价——不管是关键逻辑步骤还是废话。"

模型根本学不到"哪一步对、哪一步错",只能盲目试错。试到天荒地老,GPU电费账单倒是准时送达。


两条看起来行得通的路,都堵死了

既然"试错"太蠢,那换条路——蒸馏。

OPD(策略内蒸馏) 的思路很简单:找个"老师"模型,比学生更聪明的那种。老师和学生一起做题,老师每写一个token,学生就对照一下,"哎呀老师这里用词不一样,我学一学"。

这反馈够细粒度了吧?问题在于——你得在整个训练过程中养着那个庞大的老师模型。

"你得让一个更大的老师模型全程驻留,这大约会让GPU占用翻倍,"陈旭说。更坑的是,老师和学生的词汇表结构必须完全一致。这意味着什么?跨架构、跨模态、多语言,统统别想。

大多数企业实际运行的场景,恰恰就是这些"统统别想"。

于是有人想:那干脆让模型自己当自己的老师算了。

这就是 OPSD(策略内自蒸馏)。同一个模型,既是学生也是老师。老师那边有"标准答案",学生这边只有题目,老师对照答案给学生打分。

AI配图

听起来完美——不需要外部大模型,成本和RLVR差不多,反馈还细粒度。

然而现实给了狠狠一巴掌。

研究人员发现了一个叫"特权信息泄露"的诡异现象。简单说:学生知道了老师手里有"标准答案",它开始模仿老师的每一个字、每一步表述,而不是学习真正的推理逻辑。更离谱的是,它甚至开始"幻觉"自己也能看到那份隐藏答案——但实际部署时,它根本看不到。

结果呢?OPSD模型训练初期性能飙升,然后迅速触顶,接着一路滑坡。练得越久,模型越蠢。

三条路,条条是坑。企业想训练自己的推理模型,难道只能乖乖交钱给OpenAI?


京东团队想通了一个关键问题

关键时刻,京东和几家学术机构的研究人员站了出来。

他们问了自己一个问题:"方向"和"力度",凭什么必须绑在一起?

什么意思?

模型学习更新,需要两种信号:第一,往哪个方向改(强化还是惩罚某行为);第二,改多大力度(某一步该得多少功劳/责任)。

传统方法把这两件事混在一起,结果就是——要么反馈太粗(RLVR),要么反馈太"毒"(OPSD)。

京东团队的RLSD(带自蒸馏的可验证奖励强化学习),干了一件很聪明的事:把这两个信号拆开。

方向怎么定?交给环境反馈。模型最终答案对了,整体强化;错了,整体惩罚。稀疏,但绝对可靠。

力度怎么定?交给模型自己。模型自己当老师,逐token评估:这一步推理有用,多给点分;那一步是废话,正常给分;某一步把事情搞砸了,扣分。

"我们不是在教模型'像老师一样思考',"陈旭解释,"我们是在告诉模型:'在你选择的这条路上,哪些token真正在干活。'模型的探索分布保持不变,只有信用分配被精准化。"

说人话就是:RLSD不逼模型抄答案,而是让模型自己搞清楚"我哪几步走得漂亮,哪几步在摸鱼"。


实验结果出来,整个实验室安静了

为了验证RLSD,研究团队训练了开源的Qwen3-VL-8B视觉语言模型,在五个视觉推理基准上疯狂测试。

MMMU(大学水平多学科问题)、MathVista、MathVision、WeMath、ZeroBench(一个专门设计出来让前沿模型吃瘪的压力测试)。

结果:RLSD平均准确率56.18%,全场最高。

比基础模型高4.69%,比标准RLVR高2.31%。最夸张的是MathVision,甩开标准RLVR近4个百分点。

但更让工程师兴奋的是效率。

AI配图

"RLSD训练200步就超过了GRPO训练400步的效果,大约快了2倍,"陈旭说。成本方面,只比普通GRPO流程多一次前向传播来获取教师logits——"跟生成过程相比,这基本等于免费。"

还有一件事值得单独说:稳定性。

OPSD模型训练到后面性能会雪崩,RLSD完全不存在这个问题。它稳扎稳打,越训练性能越高,没有出现"练废了"的情况。

研究人员还发现了一个有趣的细节。在一个复杂的视觉计数任务中,标准RLVR看到最终答案正确,就给整段推理过程打相同的奖励。RLSD则精准定位——真正算出答案的那几步数学运算获得高分,"看图片,我看到..."这种废话被降权。

另一个例子更典型:模型根据柱状图做数学推导,结果某一步读错了数据。RLSD没有把整个回答判死刑,而是把最大惩罚集中在"读错数据"那一步,对其他逻辑框架保持中性。

这才是企业真正需要的。

想象一下:模型分析一份50页的季度财报,不小心误读了一个数字。企业不想让模型"一棍子打死"——它应该只改正那个错误的假设,而不是推翻整个分析框架。

RLSD做到了。


怎么落地?比你想象的简单

看到这里,你可能在想:这么牛的技术,部署起来一定很复杂吧?

答案是:相当简单,前提是你有"可验证的奖励信号"。

什么意思?代码编译器、数学验证器、SQL执行器、模式校验器——只要你能自动判断模型输出对不对,RLSD就能用。

"没有可验证奖励的任务(开放式对话、品牌文风写作),适合基于偏好的流程,"陈旭说。但RLSD的灵活性超乎想象:如果你有完整的推理轨迹,它会用;如果你只有最终答案,它也能用。

"OPSD没有这种灵活性,"他补了一刀。

集成到现有开源框架(如veRL或EasyR1)更是轻量级。陈旭说,不需要重写框架,也不需要大改技术栈——"改几十行代码,调整GRPO目标,同步教师和学生,就完事了。"

最让人眼红的是企业数据。合规手册、内部文档、历史工单、验证过的代码片段——这些企业存在"墙内"的专有数据,本质上就是"免费的特权信息"。

RLSD让企业把这些数据直接喂给模型当 privileged context,小模型就能获得精准的学习信号,还不用把任何东西送出网络。

这对数据安全要求极高的行业(金融、医疗、政府)来说,简直是量身定制。


这场训练范式的迭代,才刚刚开始

RLSD的意义,不在于又发了一篇论文、刷了几个SOTA数字。

它指向一个更本质的趋势:AI模型训练,正在从"烧钱竞赛"转向"精准培养"。

过去几年,行业的默认逻辑是:模型越大越好,数据越多越好,GPU堆得越高越好。这套逻辑成就了OpenAI、Anthropic,也吓退了无数中小企业。

但RLSD展示了一种可能性——如果你能把"学习信号"设计得更聪明,小模型也能具备推理能力,而且更可控、更可解释、更贴合业务。

当然,RLSD不是万能药。它依赖可验证的奖励信号,开放式创意任务暂时用不上。它的上限在哪里,还需要更多场景的验证。

但至少,京东团队证明了:"昂贵"和"强大"之间的等号,可以被打破。

当训练推理模型的门槛从"一座金山"降到"几百块GPU小半年",会发生什么?

会有更多企业拥有自己的"推理大脑"。会有更多垂直场景被AI渗透。会有更多创业公司杀入大厂曾经独占的领地。

这场变局,才刚刚开始。


【锐评】:京东这篇论文最动人的地方,是承认了"让学生抄答案不如让学生自己反思"——这个教育学的基本常识,终于被AI研究者重新发现并落地。

参考链接:
https://venturebeat.com/orchestration/how-to-build-custom-reasoning-agents-with-a-fraction-of-the-compute