1.106 bpb。
这是一个让传统压缩算法绝望的数字。
在计算机世界里,衡量压缩工具实力的硬指标叫“bpb”(bits per byte,每字节约比特数)。
这个数字越小,压缩越狠。
当行业标准的 xz 算法还在 1.989 bpb 徘徊时,一个叫 ts_zip 的工具横空出世,直接把标准拉到了 1.106 bpb。
这不是简单的优化,这是降维打击。
搞出这个“怪物”的人,是 Fabrice Bellard。
对,就是那个写了 FFmpeg、QEMU、JS引擎,用个人电脑把圆周率算到万亿位的传奇程序员。
在极客圈流传着一个梗:当 Jeff Dean 碰壁时,他会去找 Fabrice Bellard 寻求帮助。
这一次,Bellard 把目光锁定在了大语言模型(LLM)上。
暴力美学:用 AI 理解文本
传统的压缩工具,像是一个只会查字典的笨拙工匠,拼命寻找重复的字节来替换。
而 ts_zip 完全不同。它更像是一个博览群书的学者,在“理解”了文本的含义后,用概率预测把信息“挤”干。
Bellard 选用了一个名为** RWKV 169M v4 **的语言模型。这个模型不大,但足够聪明。它不瞎猜,而是通过算术编码器,根据模型预测的下一个 token 的概率来编码。
结果非常残暴。
在著名的 Large Text Compression Benchmark 测试集 enwik8(100MB 维基百科数据)中:
- 行业老将 xz:压缩到了 24.8 MB(1.989 bpb)。
- ts_zip:直接压到了 13.8 MB(1.106 bpb)。
这不仅仅是节省了一半的空间,这是重塑了数据压缩的极限。
ts_zip uses the RWKV 169M v4 language model which is a good compromise between speed and compression ratio.
昂贵的“免费午餐”
天下没有免费的午餐,极致的压缩比背后,是昂贵的代价。
这不是那种你在老旧笔记本上就能跑起来的轻量级工具。想用 ts_zip?先掏出一张显卡。
4GB 显存是起步价,想要体验极致速度,你得有一块 RTX 4090。
即便有了顶级显卡,它的速度依然感人——最高 1 MB/s。
相比于传统压缩工具几百 MB/s 的吞吐量,这慢得像是在爬。而且,它目前只认文本,扔进去二进制文件基本无效。
更有意思的是,这玩意儿还是个“实验品”,不同版本之间大概率不兼容。
但 Bellard 留了一手:确定性。
无论你用的是什么显卡、开了多少线程,只要输入一样,输出绝对一致。这保证了压缩后的文件,能在另一台完全不同的机器上完美解压。
模型比文件还大?
这里有个极具讽刺意味的反转。
为了压缩那 100MB 的文本,你得先下载 ts_zip 的程序包。这个包有多大?
159 MB。
这比未压缩的 enwik8(100MB)还要大。因为程序里塞满了那个 8 bit 量化、参数量庞大的 RWKV 模型。
这就像是为了送一封情书,你先造了一辆重型卡车。
有人戏称这像当年的“Pi 文件系统”——只要你预先算好了圆周率的位数,理论上任何数据都能在圆周率里找到索引。
但这正是 AI 压缩的哲学所在:通过预训练的“知识”来换取“空间”。
模型里存储了它对英语、代码乃至世界的理解,这些庞大的知识库,就是它能把文本压得比谁都扁的底气。
压缩即智能?
在 Hacker News 的评论区,有人翻出了十年前的旧账——Hutter 奖。
那个奖项的核心思想就是:压缩能力等价于智能。
如果你能完美压缩一段文本,说明你真正“理解”了文本中蕴含的规律和知识。
Bellard 的这个玩具,其实是在用一种极其硬核的方式验证这个理论。
他不仅打败了自己的旧作 NNCP(Neural Network Compression),还顺便引发了关于“隐写术”和“传话游戏”的讨论。
Compression and intelligence reminded me of the Hutter Prize... it felt novel that compression is related to intelligence and even AGI.
如果 AI 能把文本压缩到极致,那它是不是也离 AGI(通用人工智能)更近了一步?
或者说,这只是一场昂贵的概率游戏?
不管怎么说,当你看着那个 1.106 bpb 的数字时,你不得不承认:
有时候,暴力也是一种艺术。