一篇Arxiv上的新论文,直接对当下所有大模型的“心脏”部位动了刀。研究结论简单粗暴:Transformer里沿用至今的Q、K、V三件套投影,可能有一件是多余的。
评论区已经吵翻了天。有人说这是重大突破,能省一半内存;也有人吐槽:“如果这种简化真的成立,那我们之前搞这么复杂,岂不是像个笑话?”

玩笑归玩笑,但这篇来自BrainChip的研究,确实在探索一个非常现实的问题:在AI大模型疯狂内卷、但又极度渴望在手机、边缘设备上运行的今天,我们该如何给它疯狂“瘦身”?
我们每天都在用的注意力,究竟是啥?
别被术语吓到。你可以把Transformer的注意力机制,想象成一个图书馆管理员。
- Q(Query):是你的问题。
- K(Key):是图书馆里每本书的索引卡片。
- V(Value):是卡片对应的实际书页内容。
传统做法是,图书馆管理员会先看一遍问题(Q),再对比所有索引卡片(K),找到最相关的几张,最后把对应的书页(V)抽出来给你。
这个过程,需要为Q、K、V分别建立三个不同的“翻译规则”(投影矩阵)。几十年来,从GPT到BERT,大家都这么干,没人觉得有啥问题。
一个大胆的假设:少一个投影会怎样?
这篇论文的作者们问了一个很“愣”的问题:这三个投影,真的缺一不可吗?
他们设计了几种“偷懒”方案,并进行了系统实验:
- Q-K=V:让K和V共享同一个投影规则。可以理解为,索引卡片和书页内容用同一种语言编写。
- Q=K-V:让Q和K共享投影规则。
- Q=K=V:更极端,只用一个投影搞定所有。
实验结果有点打脸。在语言建模任务上,采用“Q-K=V”方案(共享KV)的模型,表现居然和用完整三件套的传统模型不相上下,有时甚至更好。
更关键的数据来了:仅此一项,就能将决定模型运行速度和内存占用的KV缓存减少50%,而困惑度(衡量模型预测准确率的指标)仅上升了3.1%。
不是所有“偷懒”都叫创新
有意思的是,并非所有简化都行得通。研究发现,“Q=K-V”(共享QK)的方案,效果就差很多。
论文给出了一个有趣的解释:在注意力机制中,Keys和Values本质上可以共享相似的信息空间,就像一本书的目录和内容有很强的相关性。而Query(问题)的导向性(directionality)很重要,如果和Key(索引)混为一谈,反而会扰乱检索。
个人觉得,这个洞察挺深刻的。它意味着,我们之前的架构可能确实存在“过度设计”的地方。
组合拳:省到极致的内存游戏
论文的杀手锏在于“组合”。把“Q-K=V”这种层内的参数共享,与GQA(分组查询注意力)这种层间的技巧结合起来,能产生1+1>2的化学反应。
- Q-K=V + GQA-4:缓存减少87.5%
- Q-K=V + MQA:缓存减少96.9%
这是什么概念?理论上,一个原本需要大量内存运行的大模型,现在只需要原来不到3%的缓存空间。这不再是实验室里的数字游戏,而是让大模型在手机、机器人、智能眼镜等边缘设备上“跑起来”的关键一步。
但,评论区泼来的冷水很真实
然而,一篇严肃的论文下面,高赞评论却充满了质疑。
“这些消融实验总是好的。但我不确定这里的语言模型发现有多大的普遍性。他们的1.2B模型只在10B token上训练,不到Chinchilla最优计算量的一半。现代超训练的1B LLMs是在10T token(多1000倍)上训练的。经验告诉我,在训练不足的体制下看起来不错的简化和替代方案,在过度训练后可能会落后。”
这条评论一针见血。小规模实验的成功,能否直接复制到万亿参数的“巨无霸”模型上? 这是所有AI简化研究都必须面对的“灵魂拷问”。论文作者也坦承,大规模验证是未来的工作。
另一条吐槽则更加犀利:
“更原始的Transformer作者们可能并不真正知道自己在做什么,但他们比其他人拥有更多的廉价算力。”
这话虽然偏激,但指向一个有趣的历史问题:我们今天奉为圭臬的架构,究竟有多少是“最优设计”,又有多少是“历史路径依赖”和“算力堆砌的胜利”?
这不是理论,是正在发生的工程实践
谷歌在其Gemma-2小模型中,已经实践了类似的思路(虽然角度不同,是跨层复用KV缓存)。这说明,顶级工业界早已在暗中较量“减法”的能力。
论文的代码已在GitHub公开。这不仅是发一篇论文,更是直接递给你一把“手术刀”。
所以,我们真的需要三件套吗?
这篇论文的价值,不在于宣告QKV三件套的死亡,而在于系统性地证明了“注意力机制”存在巨大的、未被充分探索的优化空间。 它指明了一个清晰的方向:通过对基础模块的极致压榨,我们还能挤出多少性能红利?
当行业还在为“模型有多大”争得面红耳赤时,另一场关于“如何跑得更省”的战争,已经悄然打响。这场战争的奖品,是真正的普惠AI。
【锐评】:这研究像在造精密的瑞士手表,告诉你其实少装两个齿轮也能走。核心问题在于,实验室的“能走”和工业界的“走时精准且耐操”之间,还隔着一片太平洋。
参考链接:
https://arxiv.org/abs/2606.04032