2026年了,大家还在为LLM推理速度发愁吗?
内存带宽这堵墙,撞得人头疼。
但最近有个叫 SkyLight 的框架,干了一件很“赛博朋克”的事:
它让 AI 自己去写代码,优化稀疏注意力算法。
结果呢?从一个“智障”的滑动窗口基线,一路进化到了媲美人类顶尖水平(SOTA)的 vAttention 性能。
说实话,这有点像让猴子写莎士比亚,只不过这次猴子真的写出来了。
这里的瓶颈是“内存”
先说背景。
现代大模型推理分两步:Prefill(预填充)和 Decode(解码)。
Prefill 阶段算得飞快,GPU 吃得很饱。
到了 Decode 阶段,也就是生成文字的时候,情况变了。
模型每生成一个 token,都要去翻一遍以前的 KV Cache。
这时候,GPU 核心其实是在摸鱼,它在等数据从内存里搬过来。
这就是著名的“内存墙”。
为了翻过这堵墙,稀疏注意力(Sparse Attention)成了香饽饽。
简单说,就是别让每个 token 都盯着之前所有的 token 看,只挑重点看。
这能大幅减少内存搬运,速度自然就上去了。
让 AI 当“产品经理”
UC Berkeley 的 ADRS 团队搞了个 SkyLight 框架。
他们的想法很野:既然算法优化这么难,为什么不交给 AI 自己去试?
他们找来了 Cursor 的 Agent,给它一个最简陋的代码——一个简单的滑动窗口注意力。
目标只有一个:在只选 10% token 的前提下,把近似误差降到最低。
有意思的是,这个 AI 并没有瞎蒙。
第一轮迭代,它就自己“悟”出了 Top-K 选择策略——也就是只看分数最高的那几个 token。
这显然是它训练数据里学来的知识,直接复用到了新任务里。
接着,它开始玩花活。
它尝试调整 Top-K、滑动窗口和 Sink Token 的比例。
甚至,它还自己发明了“位置偏差”,觉得离得近的 token 更重要。
到了第 25 到 30 次迭代,性能曲线直接拉起,看起来相当猛。
关键的两行代码
但故事到这里并没有结束。
AI 在第 28 次迭代达到了巅峰,然后就卡住了。
不管怎么试,分数就是上不去。
研究人员有点急,直接提示它:“去试试采样(Sampling),利用概率掩码。”
AI 试了,结果反而更烂。
它自己都得出结论:还是第 28 次的版本最好。
这时候,人类专家出手了。
他们去检查 AI 写的那堆采样代码,发现问题其实很简单:
采样过程有个小 bug,掩码值也没设对,导致数学估计有偏差。
人类只改了两行代码。
仅仅两行。
性能瞬间起飞,直接追平了目前业界的 SOTA 方案——vAttention。
![Figure 8: Cursor generated code vs manual fixes](https://adrs-ucb.notion.site/image/https%3A%2F%2Fhackmd.io%2F_uploads%
参考链接:
https://x.com/istoica05/status/2017030501857710365