说实话,每一家做大模型应用的公司,心里都有个说不出的痛。

你想让模型学会写法律文书,结果它把怎么写代码给忘了;你想让它懂点医疗常识,结果它连基本的逻辑推理都开始胡言乱语。

这就像教一个博士生学会计,学完之后,他连怎么系鞋带都忘得一干二净。

在业界,这叫“灾难性遗忘”。为了绕过这个坑,企业被迫养了一堆模型——写代码用一个,写合同用一个,搞客服又用一个。大家管这叫“模型动物园”,看着热闹,其实全是维护成本。

现在,MIT、Improbable AI Lab 和 ETH Zurich 的研究人员联手搞出了个“狠活”。

AI配图

他们开发了一种叫“自蒸馏微调(SDFT)”的新技术。简单说,就是让大模型能像人一样,一边学新技能,一边把老本事稳稳地攥在手里。

这下,那个臃肿的“模型动物园”,可能真的要倒闭了。

鱼和熊掌,这次真的能兼得?

咱们先得搞清楚,为什么现在的模型这么“健忘”。

现在的企业微调模型,主流就两条路。

AI配图

第一条路叫监督微调(SFT)。这就像填鸭式教育,扔给模型一堆标准答案,让它死记硬背。问题是,这种学习是“离策略”的,模型只会模仿,不会举一反三。一旦遇到新问题,或者学的新东西多了,旧的记忆就会被覆盖。

第二条路叫强化学习(RL)。这听起来高级点,让模型自己试错。但这玩意儿有个硬伤:它得有个明确的“奖励函数”。下围棋赢了就是赢了,写代码跑通了就是跑通了,这好判断。

但你要怎么给“写一份优秀的法律简报”或者“总结一场会议”打分?这根本没法量化。

MIT 的博士生 Idan Shenfeld 说得很直白:“不管基础模型试多少次,如果它对一个话题一无所知,它就永远生成不出正确答案,也就永远学不到东西。”

这就是死循环。RL 学不会新知识,SFT 学了就忘。

自己教自己,才是真本事

MIT 这次提出的 SDFT,本质上是在这两者之间搭了座桥。

它的核心逻辑特别有意思:自蒸馏。

研究人员想了个招,把同一个模型在训练过程中分裂成两个角色:“老师”“学生”

**“老师”**是个冻结版的模型,它手里有“小抄”——也就是专家演示。利用大模型自带的上下文学习能力(ICL),老师能看着题目和演示,推导出正确的逻辑和答案。

**“学生”**就没那么幸运了,它只能看到题目,必须模拟真实场景去硬解。

当学生给出一个答案后,拿着小抄的老师就会来“批改”。学生再根据老师的反馈,去调整自己的参数。

这招高在哪?

它不需要外部的奖励函数,也不需要死记硬背静态数据集。学生是在老师的指导下,通过自己的尝试来学习。这既保留了 SFT 的稳定性,又拿到了 RL 那种“从实践中学习”的好处。

数据不说谎,碾压传统

光说不练假把式,研究团队拿开源的 Qwen 2.5 模型做了几组硬核测试。

结果很直接:SDFT 在学习新任务上,比传统的 SFT 更稳、更强。

在科学问答基准测试里,用 SDFT 训练出来的模型准确率干到了 70.2%,而传统 SFT 只有 66.2%

但这还不是最关键的。

关键在于它有没有“丢掉常识”。

当传统 SFT 模型拼命学科学知识时,它回答逻辑、人文等通用问题的能力直接崩盘。而 SDFT 模型呢?它在提升科学能力的同时,之前任务的得分依然稳稳地停在 64.5%

更有意思的是那个“2025年自然灾害”的测试。

研究人员编造了一堆假数据喂给模型。如果你问 SFT 模型“2025年发洪水了,哪些国家需要援助?”,它大概率会傻眼,因为它只背下了事实,没学会怎么用。

而 SDFT 模型因为在训练过程中内化了逻辑,在这类间接推理题上拿了 98% 的高分。

这才是真正的“懂了”,而不是“背了”。

告别“模型动物园”,但得加钱

对企业来说,这技术最大的诱惑在于:省钱

Shenfeld 说得很干脆:“我们提供了一种能力,让全公司只需要维护一个模型。”

想想看,以前 HR、法务、研发各养一个模型,推理成本高得吓人。现在只要一个模型,按顺序把这些技能都教会它,既不退化,也不打架。

当然,天下没有免费的午餐。

这招有个明显的缺点:费算力

因为模型在训练时得自己生成答案(Rollouts)来让老师批改,这比传统的 SFT 要慢大概 4倍,计算量(FLOPs)也多出 2.5倍

我个人觉得,这笔账其实还是划算的。与其花大价钱去修补那些“学傻了”的模型,或者养一堆闲置的模型,不如在训练阶段多投入点资源。

目前,SDFT 的代码已经在 GitHub 上开源了,团队正在和 Hugging Face 合作,准备把这套流程集成进 TRL 库里。

AI配图

不过,想用这招还有个门槛:你的模型得足够聪明。

因为它得具备足够的“上下文学习能力”才能当好老师。现在看来,像 Qwen 3 这种 40亿参数的模型勉强够用,小点的模型可能还得再等等。

但 Shenfeld 很乐观:“我看未来,即使是 10亿参数的模型,也能具备支持 SDFT 的 ICL 能力。”

老实讲,如果那一天真的到来,我们手里的 AI 助手,可能就不再是那个出厂后就永远停滞的“快照”了。

它会像人一样,在每一次使用中,悄悄变强。

参考链接:
https://venturebeat.com/orchestration/mits-new-fine-tuning-method-lets-llms-learn-new-skills-without-losing-old