6倍压缩、83倍加速?实测后我沉默了

有一个项目在GitHub上挂着Google Research的论文,声称要在浏览器里搞向量量化革命。

AI配图

官方说法很诱人:4.5 bits/维度实现近无损压缩,批量搜索比原生快83倍,KV缓存压缩超过10倍。还能直接在浏览器里跑向量搜索、图像相似度匹配,甚至给3D Gaussian Splatting做压缩。

看完我只想问:真的假的?

很快,有人实测了。

有人浇了一盆冷水

一位开发者把TurboQuant-WASM接入了自己的SQLite全文搜索扩展,想看看这个"革命性"技术能不能省内存又提速。

结论很残酷:如果不用GPU,这东西根本不值得。

他测出来的结果是:搜索质量确实能和32位浮点数持平,空间也确实省了(从7.2MB压到1.2MB)。但问题是——32位浮点数反而更快

800毫秒对2.6毫秒。

对,你没看错。号称"83倍加速"的东西,实测比原生方案慢了近300倍。

这让我想起AI圈一个老梗:论文里SOTA,落地即GG。

问题的根源在哪里?

AI配图

先说TurboQuant本身。这个算法来自Google Research,论文发在ICLR 2026(对,还没开呢就已经有人基于它做项目了)。

它确实有理论创新:传统向量量化要么追求MSE最优,要么追求内积无偏,很难兼顾。TurboQuant用了一个两阶段方案——先做MSE最优量化,再用QJL对残差做1-bit量化。论文声称这个方法"接近信息论下界"。

问题在于,理论最优不等于工程可行

Google的论文假设的是什么?是可以在GPU上跑SIMD加速的场景,是服务器级别的算力支撑。结果这个WASM实现呢?把算法编译成了WebAssembly,在浏览器里单线程跑。

这就好比把F1赛车的发动机拆下来装到拖拉机上,然后抱怨它为什么跑不过保时捷。

真正的问题:AI落地的"最后一公里"

其实TurboQuant-WASM暴露的,是AI行业一个普遍困境。

算法的理论性能和实际部署效果之间,隔着十万八千里。

举个KV缓存量化的例子。论文里说TurboQuant能在2.5-3.5 bits/通道实现"绝对质量中性",压缩比超过10倍。这数据漂亮吧?但实际部署时你要考虑什么?内存布局、缓存亲和性、量化粒度、异常值处理……每一个工程细节都能让性能掉个30%。

AI配图

更别说浏览器环境了。WASM的单线程限制、SIMD支持的碎片化(Chrome 114+、Firefox 128+、Safari 18+)、JavaScript和WASM之间的数据拷贝开销……这些都是论文里不会告诉你的"魔鬼"。

那个"83倍加速"的真相

让我再仔细看一下那个"83倍加速"的claim。

官方文档里是这么写的:dotBatch一次WASM调用处理所有向量,比循环调用dot()快83倍。

这说法没骗人,但它隐瞒了一个前提:这个对比本身就是不公平的。

循环调用dot()意味着每算一次内积都要跨JS/WASM边界传数据,这个开销本身就很大。真正的对比应该是什么?是TurboQuant的dotBatch vs 直接用SIMD优化的原生实现。

在这种公平对比下,TurboQuant-WASM的表现就有点尴尬了。

所以这项目毫无价值?

也不是。

如果你真在浏览器里做向量搜索,而且内存是瓶颈(比如在移动设备上跑大模型),TurboQuant-WASM依然有意义。1.2MB对7.2MB,这个压缩比是实打实的。

问题在于,它不适合作为通用解决方案。它的适用场景很窄:必须在浏览器里,必须接受性能损失换内存。

但问题是——它没有在文档里清楚地告诉你这些限制

GitHub页面上满是"Experimental""WASM+relaxed SIMD build"这种提示,但标题可写着"Google's vector quantization in the browser",副标题是"Live Demo — vector search, image similarity, and 3D Gaussian Splatting compression running in the browser"。

这很难不让人产生过高的期待。

尾声:警惕"PPT里的AI"

写这篇文章不是要网暴这个项目。作者把Google的论文实现了,还做了WASM编译和TypeScript封装,工作量是实打实的。

我想说的是另外一件事:AI领域的宣传和现实之间,差距往往比论文标题到代码仓库之间的距离还大。

一篇论文从"接近信息论下界"到"在浏览器里跑通",中间要跨越多少工程鸿沟?可能只有真正写过代码的人才能体会。

下次再看到"革命性""SOTA""颠覆"这类词的时候,不妨先问自己一句:这个"突破",是在什么条件下取得的?

【锐评】:又是一个"论文里吊打一切,落地被一切吊打"的典型案例。AI圈该治治这种PPT病和实测PTSD了。

参考链接:
https://github.com/teamchong/turboquant-wasm