MIT 搞出个“狠活”：大模型终于能一边学新招，一边不忘旧账

说实话，每一家做大模型应用的公司，心里都有个说不出的痛。

你想让模型学会写法律文书，结果它把怎么写代码给忘了；你想让它懂点医疗常识，结果它连基本的逻辑推理都开始胡言乱语。

这就像教一个博士生学会计，学完之后，他连怎么系鞋带都忘得一干二净。

在业界，这叫“灾难性遗忘”。为了绕过这个坑，企业被迫养了一堆模型——写代码用一个，写合同用一个，搞客服又用一个。大家管这叫“模型动物园”，看着热闹，其实全是维护成本。

现在，MIT、Improbable AI Lab 和 ETH Zurich 的研究人员联手搞出了个“狠活”。

AI配图

他们开发了一种叫“自蒸馏微调（SDFT）”的新技术。简单说，就是让大模型能像人一样，一边学新技能，一边把老本事稳稳地攥在手里。

这下，那个臃肿的“模型动物园”，可能真的要倒闭了。

鱼和熊掌，这次真的能兼得？

咱们先得搞清楚，为什么现在的模型这么“健忘”。

现在的企业微调模型，主流就两条路。

AI配图

第一条路叫监督微调（SFT）。这就像填鸭式教育，扔给模型一堆标准答案，让它死记硬背。问题是，这种学习是“离策略”的，模型只会模仿，不会举一反三。一旦遇到新问题，或者学的新东西多了，旧的记忆就会被覆盖。

第二条路叫强化学习（RL）。这听起来高级点，让模型自己试错。但这玩意儿有个硬伤：它得有个明确的“奖励函数”。下围棋赢了就是赢了，写代码跑通了就是跑通了，这好判断。

但你要怎么给“写一份优秀的法律简报”或者“总结一场会议”打分？这根本没法量化。

MIT 的博士生 Idan Shenfeld 说得很直白：“不管基础模型试多少次，如果它对一个话题一无所知，它就永远生成不出正确答案，也就永远学不到东西。”

这就是死循环。RL 学不会新知识，SFT 学了就忘。

自己教自己，才是真本事

MIT 这次提出的 SDFT，本质上是在这两者之间搭了座桥。

它的核心逻辑特别有意思：自蒸馏。

研究人员想了个招，把同一个模型在训练过程中分裂成两个角色：“老师”和“学生”。

**“老师”**是个冻结版的模型，它手里有“小抄”——也就是专家演示。利用大模型自带的上下文学习能力（ICL），老师能看着题目和演示，推导出正确的逻辑和答案。

**“学生”**就没那么幸运了，它只能看到题目，必须模拟真实场景去硬解。

当学生给出一个答案后，拿着小抄的老师就会来“批改”。学生再根据老师的反馈，去调整自己的参数。

这招高在哪？

它不需要外部的奖励函数，也不需要死记硬背静态数据集。学生是在老师的指导下，通过自己的尝试来学习。这既保留了 SFT 的稳定性，又拿到了 RL 那种“从实践中学习”的好处。

数据不说谎，碾压传统

光说不练假把式，研究团队拿开源的 Qwen 2.5 模型做了几组硬核测试。

结果很直接：SDFT 在学习新任务上，比传统的 SFT 更稳、更强。

在科学问答基准测试里，用 SDFT 训练出来的模型准确率干到了 70.2%，而传统 SFT 只有 66.2%。

但这还不是最关键的。

关键在于它有没有“丢掉常识”。

当传统 SFT 模型拼命学科学知识时，它回答逻辑、人文等通用问题的能力直接崩盘。而 SDFT 模型呢？它在提升科学能力的同时，之前任务的得分依然稳稳地停在 64.5%。

更有意思的是那个“2025年自然灾害”的测试。

研究人员编造了一堆假数据喂给模型。如果你问 SFT 模型“2025年发洪水了，哪些国家需要援助？”，它大概率会傻眼，因为它只背下了事实，没学会怎么用。

而 SDFT 模型因为在训练过程中内化了逻辑，在这类间接推理题上拿了 98% 的高分。

这才是真正的“懂了”，而不是“背了”。

告别“模型动物园”，但得加钱

对企业来说，这技术最大的诱惑在于：省钱。

Shenfeld 说得很干脆：“我们提供了一种能力，让全公司只需要维护一个模型。”

想想看，以前 HR、法务、研发各养一个模型，推理成本高得吓人。现在只要一个模型，按顺序把这些技能都教会它，既不退化，也不打架。

当然，天下没有免费的午餐。

这招有个明显的缺点：费算力。

因为模型在训练时得自己生成答案（Rollouts）来让老师批改，这比传统的 SFT 要慢大概 4倍，计算量（FLOPs）也多出 2.5倍。

我个人觉得，这笔账其实还是划算的。与其花大价钱去修补那些“学傻了”的模型，或者养一堆闲置的模型，不如在训练阶段多投入点资源。

目前，SDFT 的代码已经在 GitHub 上开源了，团队正在和 Hugging Face 合作，准备把这套流程集成进 TRL 库里。

AI配图

不过，想用这招还有个门槛：你的模型得足够聪明。

因为它得具备足够的“上下文学习能力”才能当好老师。现在看来，像 Qwen 3 这种 40亿参数的模型勉强够用，小点的模型可能还得再等等。

但 Shenfeld 很乐观：“我看未来，即使是 10亿参数的模型，也能具备支持 SDFT 的 ICL 能力。”

老实讲，如果那一天真的到来，我们手里的 AI 助手，可能就不再是那个出厂后就永远停滞的“快照”了。

它会像人一样，在每一次使用中，悄悄变强。

参考链接：
https://venturebeat.com/orchestration/mits-new-fine-tuning-method-lets-llms-learn-new-skills-without-losing-old