训练一个推理AI，大厂们烧掉的GPU钱，终于有人心疼了

训练推理模型？先准备好一座"金山"

当今AI圈有一个残酷的真相：能思考的模型，都是用真金白银堆出来的。

OpenAI训练GPT-4烧了多少钱？坊间传闻是1亿美元起。Anthropic的Claude呢？只会更贵。国内那些号称对标GPT-4的大模型，哪一个不是几十亿、几百亿的投入？

但更残酷的是，大模型训出来了，绝大多数企业根本用不起。

你是一家电商公司的AI负责人，你想让模型学会推理业务数据、审核合同、分析财报。抱歉，市面上那些"思考型"模型，API调用成本高得吓人，而且——它们根本不懂你的业务逻辑。

自己训一个？开玩笑。训练推理模型的标配方案叫RLVR（Reinforcement Learning with Verifiable Rewards），听起来高大上，说白了就是让模型自己试错，最后给个"对"或"错"的评价。

一个几千token的推理过程，最后只值一个0或1。

AI配图

这就好比老师出一道数学题，学生写满三大页草稿纸，最后老师只说"错了"，然后让学生自己猜到底哪一步写错了。

RLVR的致命伤还不止于此。研究员陈旭（Chenxu Yang）跟 VentureBeat 吐槽："标准GRPO存在信号密度问题。一个几千token的推理链只得到一个二元奖励，里面每个token得到相同的评价——不管是关键逻辑步骤还是废话。"

模型根本学不到"哪一步对、哪一步错"，只能盲目试错。试到天荒地老，GPU电费账单倒是准时送达。

两条看起来行得通的路，都堵死了

既然"试错"太蠢，那换条路——蒸馏。

OPD（策略内蒸馏） 的思路很简单：找个"老师"模型，比学生更聪明的那种。老师和学生一起做题，老师每写一个token，学生就对照一下，"哎呀老师这里用词不一样，我学一学"。

这反馈够细粒度了吧？问题在于——你得在整个训练过程中养着那个庞大的老师模型。

"你得让一个更大的老师模型全程驻留，这大约会让GPU占用翻倍，"陈旭说。更坑的是，老师和学生的词汇表结构必须完全一致。这意味着什么？跨架构、跨模态、多语言，统统别想。

大多数企业实际运行的场景，恰恰就是这些"统统别想"。

于是有人想：那干脆让模型自己当自己的老师算了。

这就是 OPSD（策略内自蒸馏）。同一个模型，既是学生也是老师。老师那边有"标准答案"，学生这边只有题目，老师对照答案给学生打分。

AI配图

听起来完美——不需要外部大模型，成本和RLVR差不多，反馈还细粒度。

然而现实给了狠狠一巴掌。

研究人员发现了一个叫"特权信息泄露"的诡异现象。简单说：学生知道了老师手里有"标准答案"，它开始模仿老师的每一个字、每一步表述，而不是学习真正的推理逻辑。更离谱的是，它甚至开始"幻觉"自己也能看到那份隐藏答案——但实际部署时，它根本看不到。

结果呢？OPSD模型训练初期性能飙升，然后迅速触顶，接着一路滑坡。练得越久，模型越蠢。

三条路，条条是坑。企业想训练自己的推理模型，难道只能乖乖交钱给OpenAI？

京东团队想通了一个关键问题

关键时刻，京东和几家学术机构的研究人员站了出来。

他们问了自己一个问题："方向"和"力度"，凭什么必须绑在一起？

什么意思？

模型学习更新，需要两种信号：第一，往哪个方向改（强化还是惩罚某行为）；第二，改多大力度（某一步该得多少功劳/责任）。

传统方法把这两件事混在一起，结果就是——要么反馈太粗（RLVR），要么反馈太"毒"（OPSD）。

京东团队的RLSD（带自蒸馏的可验证奖励强化学习），干了一件很聪明的事：把这两个信号拆开。

方向怎么定？交给环境反馈。模型最终答案对了，整体强化；错了，整体惩罚。稀疏，但绝对可靠。

力度怎么定？交给模型自己。模型自己当老师，逐token评估：这一步推理有用，多给点分；那一步是废话，正常给分；某一步把事情搞砸了，扣分。

"我们不是在教模型'像老师一样思考'，"陈旭解释，"我们是在告诉模型：'在你选择的这条路上，哪些token真正在干活。'模型的探索分布保持不变，只有信用分配被精准化。"

说人话就是：RLSD不逼模型抄答案，而是让模型自己搞清楚"我哪几步走得漂亮，哪几步在摸鱼"。

实验结果出来，整个实验室安静了

为了验证RLSD，研究团队训练了开源的Qwen3-VL-8B视觉语言模型，在五个视觉推理基准上疯狂测试。

MMMU（大学水平多学科问题）、MathVista、MathVision、WeMath、ZeroBench（一个专门设计出来让前沿模型吃瘪的压力测试）。

结果：RLSD平均准确率56.18%，全场最高。

比基础模型高4.69%，比标准RLVR高2.31%。最夸张的是MathVision，甩开标准RLVR近4个百分点。

但更让工程师兴奋的是效率。

AI配图

"RLSD训练200步就超过了GRPO训练400步的效果，大约快了2倍，"陈旭说。成本方面，只比普通GRPO流程多一次前向传播来获取教师logits——"跟生成过程相比，这基本等于免费。"

还有一件事值得单独说：稳定性。

OPSD模型训练到后面性能会雪崩，RLSD完全不存在这个问题。它稳扎稳打，越训练性能越高，没有出现"练废了"的情况。

研究人员还发现了一个有趣的细节。在一个复杂的视觉计数任务中，标准RLVR看到最终答案正确，就给整段推理过程打相同的奖励。RLSD则精准定位——真正算出答案的那几步数学运算获得高分，"看图片，我看到..."这种废话被降权。

另一个例子更典型：模型根据柱状图做数学推导，结果某一步读错了数据。RLSD没有把整个回答判死刑，而是把最大惩罚集中在"读错数据"那一步，对其他逻辑框架保持中性。

这才是企业真正需要的。

想象一下：模型分析一份50页的季度财报，不小心误读了一个数字。企业不想让模型"一棍子打死"——它应该只改正那个错误的假设，而不是推翻整个分析框架。

RLSD做到了。

怎么落地？比你想象的简单

看到这里，你可能在想：这么牛的技术，部署起来一定很复杂吧？

答案是：相当简单，前提是你有"可验证的奖励信号"。

什么意思？代码编译器、数学验证器、SQL执行器、模式校验器——只要你能自动判断模型输出对不对，RLSD就能用。

"没有可验证奖励的任务（开放式对话、品牌文风写作），适合基于偏好的流程，"陈旭说。但RLSD的灵活性超乎想象：如果你有完整的推理轨迹，它会用；如果你只有最终答案，它也能用。

"OPSD没有这种灵活性，"他补了一刀。

集成到现有开源框架（如veRL或EasyR1）更是轻量级。陈旭说，不需要重写框架，也不需要大改技术栈——"改几十行代码，调整GRPO目标，同步教师和学生，就完事了。"

最让人眼红的是企业数据。合规手册、内部文档、历史工单、验证过的代码片段——这些企业存在"墙内"的专有数据，本质上就是"免费的特权信息"。

RLSD让企业把这些数据直接喂给模型当 privileged context，小模型就能获得精准的学习信号，还不用把任何东西送出网络。

这对数据安全要求极高的行业（金融、医疗、政府）来说，简直是量身定制。

这场训练范式的迭代，才刚刚开始

RLSD的意义，不在于又发了一篇论文、刷了几个SOTA数字。

它指向一个更本质的趋势：AI模型训练，正在从"烧钱竞赛"转向"精准培养"。

过去几年，行业的默认逻辑是：模型越大越好，数据越多越好，GPU堆得越高越好。这套逻辑成就了OpenAI、Anthropic，也吓退了无数中小企业。

但RLSD展示了一种可能性——如果你能把"学习信号"设计得更聪明，小模型也能具备推理能力，而且更可控、更可解释、更贴合业务。

当然，RLSD不是万能药。它依赖可验证的奖励信号，开放式创意任务暂时用不上。它的上限在哪里，还需要更多场景的验证。

但至少，京东团队证明了："昂贵"和"强大"之间的等号，可以被打破。

当训练推理模型的门槛从"一座金山"降到"几百块GPU小半年"，会发生什么？

会有更多企业拥有自己的"推理大脑"。会有更多垂直场景被AI渗透。会有更多创业公司杀入大厂曾经独占的领地。

这场变局，才刚刚开始。

【锐评】：京东这篇论文最动人的地方，是承认了"让学生抄答案不如让学生自己反思"——这个教育学的基本常识，终于被AI研究者重新发现并落地。

参考链接：
https://venturebeat.com/orchestration/how-to-build-custom-reasoning-agents-with-a-fraction-of-the-compute