大模型竞争进入深水区,路线分化日趋明显。OpenAI 坚持闭源筑墙,Meta 押注开源生态,而 Moonshot AI 正在走出一条独特的道路——一边推进底层架构创新,一边构建开放的基础模型生态。最近的两个动向颇具代表性:其提出的 Attention Residuals 在 48B 模型上验证了 20% 的训练计算成本下降,而 Kimi K2.5 被 Cursor 的 Composer 2 选为基础模型,则证明了其开源策略的商业可行性。这两条看似独立的消息,实际上指向同一个趋势——模型能力的竞争已从单点突破走向系统能力的较量,而 Moonshot AI 正在这场竞争中找到自己的生态位。
从“固定累加”到“选择性聚合”:Attention Residuals 的架构革新
Transformer 的残差连接(Residual Connection)自诞生以来就是稳定训练的关键设计。标准残差连接让每一层的输出等于上一层的输出加上该层的变换,即 $h_l = h_{l-1} + f(h_{l-1})$。这个看似简单的加法,实则承担了两个功能:一是作为梯度高速公路,让反向传播的梯度可以直接回传;二是定义信息在深度方向上的聚合方式——每个层都以均等的权重接收所有前序层的输出。
问题在于,这种“均匀加权”的聚合方式并不合理。Moonshot AI 的研究团队敏锐地指出,随着模型层数加深,早期层的信息会被后期层逐渐稀释,形成所谓的“遗忘”问题。实践中,很多层被剪枝后模型性能损失极小,说明大量层并没有真正学到独特知识。这与 RNN 曾经面临的序列维度困境如出一辙——RNN 同样采用固定的线性累加,导致长序列信息难以保留,直到注意力机制提供了内容感知的选择性聚合。
Attention Residuals 的核心创新正是将这种“线性累加”升级为“注意力聚合”。具体而言,模型不再简单地将各层输出相加,而是为每一层引入一个可学习的伪查询向量(pseudo-query),通过注意力机制计算各层输出的加权权重。形式上,从 $h_l = \sum_i v_i$ 变为 $h_l = \sum_i \alpha_{i \to l} \cdot v_i$,其中 $\alpha_{i \to l}$ 是 softmax 注意力权重。这意味着模型可以根据输入内容动态决定哪些层的输出更重要,实现了深度方向上的“选择性记忆”。
“标准残差连接和先前的循环变体都可以看作执行深度方向的线性注意力;Attention Residuals 将其推广到深度方向的 softmax 注意力,完成了与序列维度相同的线性到 softmax 的范式转变。”[1]
这个设计的优雅之处在于,它只引入了一个 $d$ 维向量(每层一个伪查询),几乎不增加推理开销,却能显著提升模型性能。在 48B 模型上的实验结果显示,训练计算成本降低 20%,这在当前大模型训练动辄消耗数千万美元算力的背景下,价值不言而喻。更值得关注的是第一作者的身份——一位高中生。这或许说明,当创新思路足够清晰时,边界突破可能来自意想不到的方向。
从“技术领先”到“生态落地”:Kimi K2.5 的开源之路
如果说 Attention Residuals 代表了 Moonshot AI 在技术深水区的探索,那么 Kimi K2.5 被 Cursor 选用则展示了其开源战略的成效。
Cursor 是当前最受开发者欢迎的 AI 编程工具之一,其 Composer 2 功能近日引发广泛讨论。最初,有用户发现 Composer 2 使用的 API 端点指向 "kimi-k2.5",随后 Moonshot AI 联合创始人 Lee Robinson 确认:Composer 2 确实基于 Kimi K2.5 进行继续预训练和强化学习训练。只有约四分之一的最终模型计算量来自基础模型,其余四分之三来自 Cursor 团队的进一步训练。
这个案例极具研究价值。它揭示了当前大模型生态的一个关键趋势:基础模型正在成为一种新型的“基础设施”。就像云计算时代各类应用构建在 AWS 或 Azure 之上,如今的 AI 应用开发者同样可以站在开源基础模型的肩膀上,通过继续预训练和特定领域的强化学习,快速构建垂直能力。
Moonshot AI 团队对此事的回应同样值得玩味。他们在社交媒体上表示:“看到我们的模型通过 Cursor 的持续预训练和高计算量 RL 训练得到有效集成,这是我们乐于支持的开源模型生态系统。”这种姿态体现了对开源生态的战略性认同——与其试图在所有环节都自己做,不如专注于打造最强的基础模型,让生态伙伴在其上构建应用。
从技术角度看,Cursor 选择 Kimi K2.5 而非其他模型,可能基于几个因素:Kimi 系列在代码理解和长上下文任务上的优势、许可证的兼容性、以及推理效率的平衡。而 Lee Robinson 特别强调“遵循许可证通过推理合作伙伴条款”,则说明开源生态的健康发展离不开清晰的许可框架和合规意识。
双轮驱动的协同效应:为什么是 Moonshot AI?
将这两条消息放在一起看,会发现一个有趣的互补关系。
Attention Residuals 解决的是训练效率问题——如何用更少的计算资源训练出更强的模型。在算力日益成为稀缺资源的当下,这直接关系到模型迭代速度。Kimi K2.5 被外部采用则解决的是生态覆盖问题——如何让自研模型产生更广泛的商业价值和社会影响。前者确保技术领先,后者实现价值放大。
更重要的是,这两个方向的底层逻辑是一致的:让模型更好地处理信息流。Attention Residuals 优化的是深度方向的信息聚合,Kimi 系列的核心优势(如长上下文窗口)处理的是序列方向的信息聚合。Moonshot AI 的技术路线图始终围绕“如何让模型更高效地利用信息”这一核心问题展开。
“Kimi-k2.5 为 Composer 2 提供了基础。看到我们的模型通过 Cursor 的持续预训练和高计算量强化学习训练得到有效集成,这是我们乐于支持的开源模型生态系统。”[2]
从行业格局看,Moonshot AI 的策略提供了一种差异化路径。OpenAI 拥有先发优势和人才密度,但闭源策略让其难以建立广泛的生态同盟;Meta 的开源策略覆盖面广,但技术迭代速度未必最快;Moonshot AI 则在“技术深度+生态开放”的交汇处找到了自己的位置。既保持架构层面的创新能力,又通过开源基础模型吸引合作伙伴,形成正反馈循环。
写在最后
大模型赛道正在从“单点突破”走向“系统竞争”。技术领先固然重要,但如何让技术转化为生态优势,是所有玩家都必须回答的问题。Moonshot AI 最近的两个动向——架构创新与开源生态——或许预示了一种值得关注的解题思路:用底层技术创新降低训练成本,用开放生态扩大模型影响,两者相互强化,形成飞轮效应。
Attention Residuals 能否成为下一代 LLM 的标准组件,Kimi 系列能否在开源生态中持续扩大份额,这些问题需要时间验证。但至少现在,Moonshot AI 正在证明:在中国大模型创业公司中,技术深度与生态智慧可以并存。
参考来源
[1] Attention Residuals - arXiv:2603.15031
https://arxiv.org/pdf/2603.15031
[2] Kimi 官方确认与 Cursor Composer 2 的合作
https://x.com/Kimi_Moonshot/status/2035035355364081694