砍掉一半内存，Transformer注意力，真的需要三件套吗？

一篇Arxiv上的新论文，直接对当下所有大模型的“心脏”部位动了刀。研究结论简单粗暴：Transformer里沿用至今的Q、K、V三件套投影，可能有一件是多余的。

评论区已经吵翻了天。有人说这是重大突破，能省一半内存；也有人吐槽：“如果这种简化真的成立，那我们之前搞这么复杂，岂不是像个笑话？”

论文研究不同QKV变体在视觉和语言任务上的表现

玩笑归玩笑，但这篇来自BrainChip的研究，确实在探索一个非常现实的问题：在AI大模型疯狂内卷、但又极度渴望在手机、边缘设备上运行的今天，我们该如何给它疯狂“瘦身”？

我们每天都在用的注意力，究竟是啥？

别被术语吓到。你可以把Transformer的注意力机制，想象成一个图书馆管理员。

Q（Query）：是你的问题。
K（Key）：是图书馆里每本书的索引卡片。
V（Value）：是卡片对应的实际书页内容。
传统做法是，图书馆管理员会先看一遍问题（Q），再对比所有索引卡片（K），找到最相关的几张，最后把对应的书页（V）抽出来给你。

这个过程，需要为Q、K、V分别建立三个不同的“翻译规则”（投影矩阵）。几十年来，从GPT到BERT，大家都这么干，没人觉得有啥问题。

一个大胆的假设：少一个投影会怎样？

这篇论文的作者们问了一个很“愣”的问题：这三个投影，真的缺一不可吗？

他们设计了几种“偷懒”方案，并进行了系统实验：

Q-K=V：让K和V共享同一个投影规则。可以理解为，索引卡片和书页内容用同一种语言编写。
Q=K-V：让Q和K共享投影规则。
Q=K=V：更极端，只用一个投影搞定所有。

实验结果有点打脸。在语言建模任务上，采用“Q-K=V”方案（共享KV）的模型，表现居然和用完整三件套的传统模型不相上下，有时甚至更好。

更关键的数据来了：仅此一项，就能将决定模型运行速度和内存占用的KV缓存减少50%，而困惑度（衡量模型预测准确率的指标）仅上升了3.1%。

不是所有“偷懒”都叫创新

有意思的是，并非所有简化都行得通。研究发现，“Q=K-V”（共享QK）的方案，效果就差很多。

论文给出了一个有趣的解释：在注意力机制中，Keys和Values本质上可以共享相似的信息空间，就像一本书的目录和内容有很强的相关性。而Query（问题）的导向性（directionality）很重要，如果和Key（索引）混为一谈，反而会扰乱检索。

个人觉得，这个洞察挺深刻的。它意味着，我们之前的架构可能确实存在“过度设计”的地方。

组合拳：省到极致的内存游戏

论文的杀手锏在于“组合”。把“Q-K=V”这种层内的参数共享，与GQA（分组查询注意力）这种层间的技巧结合起来，能产生1+1>2的化学反应。

Q-K=V + GQA-4：缓存减少87.5%
Q-K=V + MQA：缓存减少96.9%

这是什么概念？理论上，一个原本需要大量内存运行的大模型，现在只需要原来不到3%的缓存空间。这不再是实验室里的数字游戏，而是让大模型在手机、机器人、智能眼镜等边缘设备上“跑起来”的关键一步。

但，评论区泼来的冷水很真实

然而，一篇严肃的论文下面，高赞评论却充满了质疑。

“这些消融实验总是好的。但我不确定这里的语言模型发现有多大的普遍性。他们的1.2B模型只在10B token上训练，不到Chinchilla最优计算量的一半。现代超训练的1B LLMs是在10T token（多1000倍）上训练的。经验告诉我，在训练不足的体制下看起来不错的简化和替代方案，在过度训练后可能会落后。”

这条评论一针见血。小规模实验的成功，能否直接复制到万亿参数的“巨无霸”模型上？ 这是所有AI简化研究都必须面对的“灵魂拷问”。论文作者也坦承，大规模验证是未来的工作。

另一条吐槽则更加犀利：

“更原始的Transformer作者们可能并不真正知道自己在做什么，但他们比其他人拥有更多的廉价算力。”

这话虽然偏激，但指向一个有趣的历史问题：我们今天奉为圭臬的架构，究竟有多少是“最优设计”，又有多少是“历史路径依赖”和“算力堆砌的胜利”？

这不是理论，是正在发生的工程实践

谷歌在其Gemma-2小模型中，已经实践了类似的思路（虽然角度不同，是跨层复用KV缓存）。这说明，顶级工业界早已在暗中较量“减法”的能力。

论文的代码已在GitHub公开。这不仅是发一篇论文，更是直接递给你一把“手术刀”。

所以，我们真的需要三件套吗？

这篇论文的价值，不在于宣告QKV三件套的死亡，而在于系统性地证明了“注意力机制”存在巨大的、未被充分探索的优化空间。 它指明了一个清晰的方向：通过对基础模块的极致压榨，我们还能挤出多少性能红利？

当行业还在为“模型有多大”争得面红耳赤时，另一场关于“如何跑得更省”的战争，已经悄然打响。这场战争的奖品，是真正的普惠AI。

【锐评】：这研究像在造精密的瑞士手表，告诉你其实少装两个齿轮也能走。核心问题在于，实验室的“能走”和工业界的“走时精准且耐操”之间，还隔着一片太平洋。

参考链接：
https://arxiv.org/abs/2606.04032