苹果最新研究炸了：AI靠"自我PUA"，代码能力暴涨30%

一个令人窒息的发现

想象一下：

你让AI写代码，它第一次只对了42%。然后你什么都不做，只是让它用自己的垃圾输出再训练一遍。

它就对了55%。

AI配图

没有老师、没有验证器、没有强化学习、没有人类标注。

苹果的研究人员把这种方法叫做Simple Self-Distillation（SSD）。论文标题里那个"Embarrassingly Simple"——"简单得令人尴尬"——不是谦虚，是在凡尔赛。

更离谱的是，研究人员还做了一个stress test：故意用烂到家的数据训练。采样温度拉到最高，不做截断，生成的代码有40%根本没法看，充斥着各种语言混杂的垃圾内容。

你猜怎么着？

模型还是涨了5到7个点。

这就好像告诉一个学生：你把错题本撕了，下次考试反而考得更好。

锁与叉：代码生成的隐藏矛盾

AI配图

为什么这么简单的方法能有效？

论文提出了一个**"精度-探索冲突"**（precision-exploration conflict）的概念，解释起来其实很直观。

写代码的时候，模型面对两种完全不同的位置。

一种是锁（lock）：比如写完if n ==，后面必须跟一个具体的数字或变量，语法和语义都没什么歧义。但模型还是会给一大票"虽然合理但完全不对"的选项保留概率。锁需要精准，必须压制那些干扰项。

另一种是叉（fork）：比如刚打开一个函数体，接下来可以用for循环、递归、或者直接初始化数据结构，每条路都通向完全不同的解法。叉需要探索，需要给各种可能的正确答案都留机会。

问题来了。

调低温度，会让锁更安全，但叉被饿死——模型只会沿着最主流的路径走，错过其他正确的解法。

调高温度，叉能探索了，但锁开始漏——那些干扰项又冒出来了。

所以任何全局的解码配置，都只能是妥协。

这就是SSD要打破的困局。

SSD做了什么？

方法简单到让人想骂人。

训练阶段：从模型里采样一批代码（不验证对错，不运行测试，甚至不做过滤），然后用标准的监督微调（SFT）在这批数据上训练。

推理阶段：用更高的温度解码。

没了。

但就是有用。

Qwen3-30B-Instruct在LiveCodeBench v6上，从42.4%干到55.3%，涨了12.9个点，相对提升30%。

更邪门的是，越难的题目涨得越多。简单题涨6.5pp，中等题涨14.2pp，困难题涨15.3pp。pass@5更难的问题直接从31%干到54%。

仿佛这个方法专门针对人类的弱点。

为什么解码调参救不了场？

有人可能会问：既然调高温度有用，我直接调高温度不就行了？

论文专门做了这个实验。

他们把原始模型的温度从低到高全部试了一遍。对Qwen3-30B-Instruct来说，pass@1只波动了2.2个百分点——几乎等于没变化。

但SSD之后，同样的温度范围能带来额外的11.8个点的优势。

AI配图

差距在困难题上更夸张：SSD比最优的纯调参方案高出13.3个点。

原因很简单。调参只能重新加权已有的概率分布，不能改变分布本身。SSD是直接修改了模型的内部结构，让锁更锁、让叉更开放。

这就好像一个是调整射击姿势，另一个是直接换了一把枪。

最反直觉的实验：垃圾进，精品出

论文里最让我服气的，是那个故意使坏的实验。

研究人员把训练温度拉到最高（1.5），完全不做截断。这意味着采样出来的代码质量惨不忍睹——大约40%的输出连可执行的代码都提取不出来，剩下的也经常中途变成多语言混杂的垃圾。

按理说，这种数据训出来的模型应该原地爆炸。

但结果呢？

模型从42.4%涨到48.1%，pass@5从53.5%涨到64%。

而且这个提升主要来自困难题目。

这说明SSD的收益根本不是来自于学习正确答案，而是来自于重塑概率分布。高温采样改变了token的概率结构，让"锁"更紧凑、让"叉"更丰富——跟代码本身对不对没关系。

换句话说：模型学的是"怎么想"，而不是"想什么"。

苹果在下一盘什么棋？

这篇论文有十个作者，通讯作者来自Apple。

评论区有人说了句很扎心的话：

"讽刺的是，苹果还在发AI论文，OpenAI已经不发了。"

确实。苹果这篇论文没有任何商业化包装，就是纯纯的学术贡献。方法开源、代码未知、结论坦诚。

而且他们没有藏着掖着那些反直觉的发现——比如为什么垃圾数据也能训出效果，比如这个方法的局限性是什么。

在AI行业越来越封闭的当下，这种研究反而显得珍贵。

一个高尔夫球手的比喻

评论区有个比喻特别到位：

"这就像一个高尔夫球手，在没有球洞的开阔场地上挥杆成千上万次。他从不瞄准，只是反复练习基础动作。当他终于站到真正的球场时，基本动作已经完全自动化，可以毫无顾虑地尝试创造性的高风险击球。"

SSD做的，就是让模型在"开阔场地"上先把自己的基础动作刻进肌肉记忆。

那些看似垃圾的自我生成数据，不是让模型记住"正确答案"，而是让模型记住"哪些token该被信任，哪些该被忽略"。

当这种判断力内化之后，真正的挑战到来时，模型才能既精准、又敢于探索。

【锐评】

苹果这篇论文揭了一个AI行业的"皇帝新衣"：原来模型自己产出的垃圾，也能成为宝藏。精度与探索的冲突被重新理解后，"自我PUA"可能比"名师辅导"更有效。不过话又说回来——如果AI靠自嗨就能变强，那那些拼命烧钱买合成数据的公司，是不是亏大了？

参考链接：
https://arxiv.org/abs/2604.01193