6倍压缩、83倍加速?实测后我沉默了
有一个项目在GitHub上挂着Google Research的论文,声称要在浏览器里搞向量量化革命。
官方说法很诱人:4.5 bits/维度实现近无损压缩,批量搜索比原生快83倍,KV缓存压缩超过10倍。还能直接在浏览器里跑向量搜索、图像相似度匹配,甚至给3D Gaussian Splatting做压缩。
看完我只想问:真的假的?
很快,有人实测了。
有人浇了一盆冷水
一位开发者把TurboQuant-WASM接入了自己的SQLite全文搜索扩展,想看看这个"革命性"技术能不能省内存又提速。
结论很残酷:如果不用GPU,这东西根本不值得。
他测出来的结果是:搜索质量确实能和32位浮点数持平,空间也确实省了(从7.2MB压到1.2MB)。但问题是——32位浮点数反而更快。
800毫秒对2.6毫秒。
对,你没看错。号称"83倍加速"的东西,实测比原生方案慢了近300倍。
这让我想起AI圈一个老梗:论文里SOTA,落地即GG。
问题的根源在哪里?
先说TurboQuant本身。这个算法来自Google Research,论文发在ICLR 2026(对,还没开呢就已经有人基于它做项目了)。
它确实有理论创新:传统向量量化要么追求MSE最优,要么追求内积无偏,很难兼顾。TurboQuant用了一个两阶段方案——先做MSE最优量化,再用QJL对残差做1-bit量化。论文声称这个方法"接近信息论下界"。
问题在于,理论最优不等于工程可行。
Google的论文假设的是什么?是可以在GPU上跑SIMD加速的场景,是服务器级别的算力支撑。结果这个WASM实现呢?把算法编译成了WebAssembly,在浏览器里单线程跑。
这就好比把F1赛车的发动机拆下来装到拖拉机上,然后抱怨它为什么跑不过保时捷。
真正的问题:AI落地的"最后一公里"
其实TurboQuant-WASM暴露的,是AI行业一个普遍困境。
算法的理论性能和实际部署效果之间,隔着十万八千里。
举个KV缓存量化的例子。论文里说TurboQuant能在2.5-3.5 bits/通道实现"绝对质量中性",压缩比超过10倍。这数据漂亮吧?但实际部署时你要考虑什么?内存布局、缓存亲和性、量化粒度、异常值处理……每一个工程细节都能让性能掉个30%。
更别说浏览器环境了。WASM的单线程限制、SIMD支持的碎片化(Chrome 114+、Firefox 128+、Safari 18+)、JavaScript和WASM之间的数据拷贝开销……这些都是论文里不会告诉你的"魔鬼"。
那个"83倍加速"的真相
让我再仔细看一下那个"83倍加速"的claim。
官方文档里是这么写的:dotBatch一次WASM调用处理所有向量,比循环调用dot()快83倍。
这说法没骗人,但它隐瞒了一个前提:这个对比本身就是不公平的。
循环调用dot()意味着每算一次内积都要跨JS/WASM边界传数据,这个开销本身就很大。真正的对比应该是什么?是TurboQuant的dotBatch vs 直接用SIMD优化的原生实现。
在这种公平对比下,TurboQuant-WASM的表现就有点尴尬了。
所以这项目毫无价值?
也不是。
如果你真在浏览器里做向量搜索,而且内存是瓶颈(比如在移动设备上跑大模型),TurboQuant-WASM依然有意义。1.2MB对7.2MB,这个压缩比是实打实的。
问题在于,它不适合作为通用解决方案。它的适用场景很窄:必须在浏览器里,必须接受性能损失换内存。
但问题是——它没有在文档里清楚地告诉你这些限制。
GitHub页面上满是"Experimental""WASM+relaxed SIMD build"这种提示,但标题可写着"Google's vector quantization in the browser",副标题是"Live Demo — vector search, image similarity, and 3D Gaussian Splatting compression running in the browser"。
这很难不让人产生过高的期待。
尾声:警惕"PPT里的AI"
写这篇文章不是要网暴这个项目。作者把Google的论文实现了,还做了WASM编译和TypeScript封装,工作量是实打实的。
我想说的是另外一件事:AI领域的宣传和现实之间,差距往往比论文标题到代码仓库之间的距离还大。
一篇论文从"接近信息论下界"到"在浏览器里跑通",中间要跨越多少工程鸿沟?可能只有真正写过代码的人才能体会。
下次再看到"革命性""SOTA""颠覆"这类词的时候,不妨先问自己一句:这个"突破",是在什么条件下取得的?
【锐评】:又是一个"论文里吊打一切,落地被一切吊打"的典型案例。AI圈该治治这种PPT病和实测PTSD了。
参考链接:
https://github.com/teamchong/turboquant-wasm