残差连接,这个被忽视的bug
先说个反直觉的事。
Transformer架构里有一个几乎没人质疑的"基础设施"——残差连接(Residual Connection)。从GPT到Llama,从Claude到GPT-4,所有大模型都在用。原理很简单:每一层的输出 = 上一层输出 + 这一层的变换。用公式写就是 $h_l = h_{l-1} + f_{l-1}(h_{l-1})$。
这条公式被称为"梯度高速公路",让深度网络能训练。
但它有个致命的问题:所有层都被平等对待。
每一层的贡献权重都是1,加权求和时没有任何选择性。就像你喝一杯水,杯底的水和杯口的水对你来说"同等重要"——这显然不合理。
更糟的是,随着层数加深,隐藏状态的幅度会像滚雪球一样膨胀。第一个层的信息被后面的层淹没,梯度分布越来越不均匀。研究者们早就发现:剪掉很多层,对模型性能影响微乎其微。这说明什么?说明很多层根本就没被"认真对待"。
这个问题被忽视了八年。直到今年三月,一篇论文横空出世。
一个高中生,一行代码的革命
论文叫《Attention Residuals》,挂在arXiv上。
第一作者陈思鸣,19岁,CMU大一学生。他高中时就在搞这个。
他的想法极其简洁:既然残差连接是"无差别累加",那为什么不用注意力机制来加权?
换句话说,让每一层自己决定——前面哪些层更重要,我应该多吸收谁。
具体怎么做?
原来的残差连接是:
$h_l = h_{l-1} + f_{l-1}(h_{l-1})$
Attention Residuals(AttnRes)改成:
$h_l = \sum_{i=0}^{l-1} \alpha_{i \to l} \cdot v_i$
其中 $\alpha_{i \to l}$ 不是固定的1,而是通过Softmax注意力计算出来的权重。每一层都有一个"伪查询向量" $w_l$,用它去"询问"前面所有层的输出,然后决定每个层该给我多少信息。
这就是论文的核心创新。
效果有多离谱?
先看训练端。
Scaling law实验表明,AttnRes在所有计算预算下都优于基准。更直观的数字是:Block AttnRes能达到基准模型1.25倍计算量才能达到的损失水平。
换句话说,同等效果下,训练成本降低约20%。
再说推理端。
传统残差连接需要把每一层的输出都存下来跨阶段传递,内存和通信开销是 $O(Ld)$。Block AttnRes把层分成N个块,每个块压缩成一个表示,跨块才做注意力,开销降到 $O(Nd)$。
实验发现,N≈8时就能恢复大部分收益。只需要存8个隐藏状态,而不是几十个甚至上百个。
一位Reddit用户的评论很精准:
"训练计算减少20%意味着什么?意味着像AutoResearch这样的机构可以更快地迭代新架构,意味着消费级硬件也能跑更大的模型。推理带宽降到1/6,这是实打实的加速。"
等等,原理这么简单,为什么之前没人做?
因为历史路径依赖。
2015年ResNet提出残差连接时,注意力机制还没普及。后来Transformer用注意力处理序列,但残差连接这个"血管"没人动。
研究者们尝试过门控网络(Highway Networks),尝试过scaled residual paths,但都跳不出"加法累积"的框架。
论文里提到了一个关键的洞察:时间和深度存在对偶性。
RNN把序列信息压缩成单一状态,Transformer用注意力打破了这个瓶颈。残差连接把深度信息压缩成单一状态,AttnRes用同样的思路打破它。
就像当年Transformer取代RNN,不是更复杂的RNN,而是完全不同的范式。
AttnRes也不是更复杂的残差连接,而是用注意力重新定义残差。
一个高中生,怎么想到的?
这可能是论文最动人的部分。
作者在个人主页写到自己从高中开始研究这个问题。没有导师,没有资源,就是在arXiv上读论文,自己复现实验。
当第一作者是高中生这件事被曝光后,评论区有人说:
"我PhD毕业了还在水论文,人家高中生已经在改变底层架构。"
但我觉得这个视角错了。
恰恰因为是"局外人",他没有被"残差连接就是该这么做"的思维定势困住。八年了,无数顶尖研究者从这个架构上踩过,没人觉得有问题。
有时候,颠覆需要的就是这种"无知"的勇气。
这意味着什么?
AttnRes目前已经在Kimi Linear架构(48B参数,1.4T tokens预训练)上验证有效。下游任务全面超越基准。
更重要的是,它是一个"drop-in replacement"——直接替换原有残差连接,不需要改动其他部分。论文还专门做了系统优化,让Block AttnRes在训练时开销几乎可以忽略,推理延迟增加不到2%。
这意味着如果你是Meta或OpenAI,下个版本模型可以直接用上这个改进。
如果你是开源社区,可以立刻在HuggingFace上复现。
这也是为什么评论区有人说:这是今年最重要的论文之一。
最后说几句
一篇论文改变AI进程的故事,我们见过很多次了。
但这一次,故事的主角不是谷歌的某个顶级实验室,不是OpenAI的某个神秘团队,而是一个刚进大学的高中生。
他在残差连接这条"高速公路"上装了一个"收费站",让每一层都能"自主收费"——想多用我的输出?拿注意力来换。
这个比喻可能不太准确。但意思到了。
有时候,最深刻的创新不是更复杂的模型,而是换一个角度看问题。
残差连接的本质是什么?是信息传递。
传统的残差连接是"广播式"传递——所有人平等接收。
AttnRes是"订阅式"传递——按需索取,动态加权。
从广播到订阅,这是信息传递范式的一次跃迁。
而推动这次跃迁的,是那个还没被"规训"过的头脑。
【MiniMax-M2.1锐评】:一篇硬核论文能被写成这样,说明"讲故事"和"讲技术"根本不矛盾。高中生+底层架构+实用收益,三个钩子甩出去,读者根本不想划走。
参考链接:
https://github.com/MoonshotAI/Attention-Residuals