龙虾(openclaw)调用有多烧钱,不用我多说了吧?
Token就是数字时代的黄金。每一个API调用,都在燃烧你的预算。于是各大厂都在卷Token压缩——用更少的Token输出同样的效果,省下来的都是白花花的银子。
但市面上的方案有个致命问题:压缩靠的都是大模型。
你得额外调用一个ML模型来做压缩、解压,一来一回计算成本反而更高了。就像为了省停车费,把车停到5公里外的停车场——折腾一圈发现好像也没省多少。
今天要聊的这个开源项目,直接把桌子掀了。
14个专职Compression Stage,排队给你打工
Claw Compactor,一个刚开源的LLM Token压缩引擎。
它不依赖任何外部ML模型。12,000+行Python代码,1,676个测试用例,硬是用14个专职Stage组成了一个14阶段融合管道(Fusion Pipeline)。
每个Stage各司其职:
- Cortex - 自动识别内容类型,代码?JSON?日志?Diff?16种编程语言不在话下
- Ionizer - JSON数组统计采样,压缩率最高的一个,能达到81.9%
- Neurosyntax - AST感知的代码压缩,用tree-sitter解析语法树,安全压缩代码
- SemanticDedup - SimHash指纹去重,跨内容块去重
- Abbrev - 自然语言缩写,只对纯文本动手,绝不碰代码和JSON
每个Stage都是无状态的,只通过不可变的FusionContext传递数据。前一个Stage的输出,直接喂给下一个。
这就导致了一个很爽的效果:管道化处理,零推理成本。
实测数据有点离谱
官方给的Benchmark,我挑了几个离谱的:
| 内容类型 | 传统压缩 | FusionEngine | 提升 |
|---|---|---|---|
| Python源码 | 7.3% | 25.0% | 3.4x |
| JSON (100条) | 12.6% | 81.9% | 6.5x |
| 构建日志 | 5.5% | 24.1% | 4.4x |
| Agent对话 | 5.7% | 31.0% | 5.4x |
| 搜索结果 | 5.3% | 40.7% | 7.7x |
平均压缩率54%,JSON最高干到81.9%。
这是什么概念?你原来要花100块的API调用费,现在46块就能搞定。
而且这还是零推理成本的前提下。不用加载任何ML模型,纯规则+启发式算法,Python 3.9+装上就能跑。
最骚的操作:可逆压缩
常规压缩都是有损的,压完了就回不去了。
Claw Compactor搞了个RewindStore——用哈希寻址的LRU缓存,把原始内容存起来。
压缩后的输出里会插入[rewind:abc123...]这样的标记。LLM在需要的时候,随时可以调用Rewind工具把原始内容拉回来。
官方原话:"The LLM can call a tool to retrieve any compressed section by its marker ID"
也就是说,压缩是透明的——你可以在压缩率和可逆性之间自己权衡。
跟LLMLingua-2正面硬刚
官方还扔了一个对比数据:
在同样的压缩率下(ROUGE-L保真度测试):
- 压缩率0.3(激进):Claw 0.653 vs LLMLingua-2 0.346,+88.2%
- 压缩率0.5(平衡):Claw 0.723 vs LLMLingua-2 0.570,+26.8%
简单说:同样的压缩比例,Claw Compactor保留下来的语义内容更多。
而且LLMLingua-2是需要加载模型的,Claw Compactor不需要。
零依赖,是真的零
看这个项目统计:
- 必需依赖:0个
- 可选依赖:tiktoken(精确Token计数)、tree-sitter(AST解析)
- 不装可选依赖?也行,用内置的启发式fallback照跑不误
安装方式极其简单:
pip install claw-compactor
或者:
git clone https://github.com/open-compress/claw-compactor.git
cd claw-compactor
pip install -e .
然后:
claw-compactor compress /path/to/workspace
完事。
我的看法
说实话,Token压缩这个赛道已经卷麻了。各大厂都在推自己的方案,但大多离不开"模型"二字。
Claw Compactor的思路很简单粗暴:不用模型,用规则。
14个Stage,每个都是针对特定内容类型精心设计的压缩器。代码用AST解析,JSON用统计采样,日志用行折叠——术业有专攻,打组合拳。
效果数据摆在那里,MIT开源,没有商业套路的免费午餐。
可能的问题是:实际生产环境跑起来能不能达到官方宣称的压缩率?各家的输入数据形态各异,官方测试用的是SWE-bench的样本,真实场景可能更复杂。
【MiniMax-M2.5锐评】:用14个专职Stage硬刚ML模型压缩,这波啊,这波是"用魔法打败魔法"的反向操作——不用魔法,反而赢了。
参考链接:
https://github.com/open-compress/claw-compactor