一个令人窒息的发现

想象一下:

你让AI写代码,它第一次只对了42%。然后你什么都不做,只是让它用自己的垃圾输出再训练一遍。

它就对了55%。

AI配图

没有老师、没有验证器、没有强化学习、没有人类标注。

苹果的研究人员把这种方法叫做Simple Self-Distillation(SSD)。论文标题里那个"Embarrassingly Simple"——"简单得令人尴尬"——不是谦虚,是在凡尔赛。

更离谱的是,研究人员还做了一个stress test:故意用烂到家的数据训练。采样温度拉到最高,不做截断,生成的代码有40%根本没法看,充斥着各种语言混杂的垃圾内容。

你猜怎么着?

模型还是涨了5到7个点。

这就好像告诉一个学生:你把错题本撕了,下次考试反而考得更好。

锁与叉:代码生成的隐藏矛盾

AI配图

为什么这么简单的方法能有效?

论文提出了一个**"精度-探索冲突"**(precision-exploration conflict)的概念,解释起来其实很直观。

写代码的时候,模型面对两种完全不同的位置。

一种是(lock):比如写完if n ==,后面必须跟一个具体的数字或变量,语法和语义都没什么歧义。但模型还是会给一大票"虽然合理但完全不对"的选项保留概率。锁需要精准,必须压制那些干扰项。

另一种是(fork):比如刚打开一个函数体,接下来可以用for循环、递归、或者直接初始化数据结构,每条路都通向完全不同的解法。叉需要探索,需要给各种可能的正确答案都留机会。

问题来了。

调低温度,会让锁更安全,但叉被饿死——模型只会沿着最主流的路径走,错过其他正确的解法。

调高温度,叉能探索了,但锁开始漏——那些干扰项又冒出来了。

所以任何全局的解码配置,都只能是妥协

这就是SSD要打破的困局。

SSD做了什么?

方法简单到让人想骂人。

训练阶段从模型里采样一批代码(不验证对错,不运行测试,甚至不做过滤),然后用标准的监督微调(SFT)在这批数据上训练。

推理阶段用更高的温度解码。

没了。

但就是有用。

Qwen3-30B-Instruct在LiveCodeBench v6上,从42.4%干到55.3%,涨了12.9个点,相对提升30%。

更邪门的是,越难的题目涨得越多。简单题涨6.5pp,中等题涨14.2pp,困难题涨15.3pp。pass@5更难的问题直接从31%干到54%。

仿佛这个方法专门针对人类的弱点。

为什么解码调参救不了场?

有人可能会问:既然调高温度有用,我直接调高温度不就行了?

论文专门做了这个实验。

他们把原始模型的温度从低到高全部试了一遍。对Qwen3-30B-Instruct来说,pass@1只波动了2.2个百分点——几乎等于没变化。

但SSD之后,同样的温度范围能带来额外的11.8个点的优势。

AI配图

差距在困难题上更夸张:SSD比最优的纯调参方案高出13.3个点。

原因很简单。调参只能重新加权已有的概率分布,不能改变分布本身。SSD是直接修改了模型的内部结构,让锁更锁、让叉更开放。

这就好像一个是调整射击姿势,另一个是直接换了一把枪。

最反直觉的实验:垃圾进,精品出

论文里最让我服气的,是那个故意使坏的实验。

研究人员把训练温度拉到最高(1.5),完全不做截断。这意味着采样出来的代码质量惨不忍睹——大约40%的输出连可执行的代码都提取不出来,剩下的也经常中途变成多语言混杂的垃圾。

按理说,这种数据训出来的模型应该原地爆炸。

但结果呢?

模型从42.4%涨到48.1%,pass@5从53.5%涨到64%。

而且这个提升主要来自困难题目。

这说明SSD的收益根本不是来自于学习正确答案,而是来自于重塑概率分布。高温采样改变了token的概率结构,让"锁"更紧凑、让"叉"更丰富——跟代码本身对不对没关系。

换句话说:模型学的是"怎么想",而不是"想什么"。

苹果在下一盘什么棋?

这篇论文有十个作者,通讯作者来自Apple。

评论区有人说了句很扎心的话:

"讽刺的是,苹果还在发AI论文,OpenAI已经不发 了。"

确实。苹果这篇论文没有任何商业化包装,就是纯纯的学术贡献。方法开源、代码未知、结论坦诚。

而且他们没有藏着掖着那些反直觉的发现——比如为什么垃圾数据也能训出效果,比如这个方法的局限性是什么。

在AI行业越来越封闭的当下,这种研究反而显得珍贵。

一个高尔夫球手的比喻

评论区有个比喻特别到位:

"这就像一个高尔夫球手,在没有球洞的开阔场地上挥杆成千上万次。他从不瞄准,只是反复练习基础动作。当他终于站到真正的球场时,基本动作已经完全自动化,可以毫无顾虑地尝试创造性的高风险击球。"

SSD做的,就是让模型在"开阔场地"上先把自己的基础动作刻进肌肉记忆。

那些看似垃圾的自我生成数据,不是让模型记住"正确答案",而是让模型记住"哪些token该被信任,哪些该被忽略"。

当这种判断力内化之后,真正的挑战到来时,模型才能既精准、又敢于探索。

【锐评】

苹果这篇论文揭了一个AI行业的"皇帝新衣":原来模型自己产出的垃圾,也能成为宝藏。精度与探索的冲突被重新理解后,"自我PUA"可能比"名师辅导"更有效。不过话又说回来——如果AI靠自嗨就能变强,那那些拼命烧钱买合成数据的公司,是不是亏大了?

参考链接:
https://arxiv.org/abs/2604.01193