龙虾(openclaw调用有多烧钱,不用我多说了吧?

Token就是数字时代的黄金。每一个API调用,都在燃烧你的预算。于是各大厂都在卷Token压缩——用更少的Token输出同样的效果,省下来的都是白花花的银子。

但市面上的方案有个致命问题:压缩靠的都是大模型

你得额外调用一个ML模型来做压缩、解压,一来一回计算成本反而更高了。就像为了省停车费,把车停到5公里外的停车场——折腾一圈发现好像也没省多少。

今天要聊的这个开源项目,直接把桌子掀了。

image

14个专职Compression Stage,排队给你打工

Claw Compactor,一个刚开源的LLM Token压缩引擎。

它不依赖任何外部ML模型。12,000+行Python代码,1,676个测试用例,硬是用14个专职Stage组成了一个14阶段融合管道(Fusion Pipeline)

每个Stage各司其职:

  • Cortex - 自动识别内容类型,代码?JSON?日志?Diff?16种编程语言不在话下
  • Ionizer - JSON数组统计采样,压缩率最高的一个,能达到81.9%
  • Neurosyntax - AST感知的代码压缩,用tree-sitter解析语法树,安全压缩代码
  • SemanticDedup - SimHash指纹去重,跨内容块去重
  • Abbrev - 自然语言缩写,只对纯文本动手,绝不碰代码和JSON

每个Stage都是无状态的,只通过不可变的FusionContext传递数据。前一个Stage的输出,直接喂给下一个。

这就导致了一个很爽的效果:管道化处理,零推理成本

实测数据有点离谱

官方给的Benchmark,我挑了几个离谱的:

内容类型 传统压缩 FusionEngine 提升
Python源码 7.3% 25.0% 3.4x
JSON (100条) 12.6% 81.9% 6.5x
构建日志 5.5% 24.1% 4.4x
Agent对话 5.7% 31.0% 5.4x
搜索结果 5.3% 40.7% 7.7x

平均压缩率54%,JSON最高干到81.9%。

这是什么概念?你原来要花100块的API调用费,现在46块就能搞定。

而且这还是零推理成本的前提下。不用加载任何ML模型,纯规则+启发式算法,Python 3.9+装上就能跑。

最骚的操作:可逆压缩

常规压缩都是有损的,压完了就回不去了。

Claw Compactor搞了个RewindStore——用哈希寻址的LRU缓存,把原始内容存起来。

压缩后的输出里会插入[rewind:abc123...]这样的标记。LLM在需要的时候,随时可以调用Rewind工具把原始内容拉回来。

官方原话:"The LLM can call a tool to retrieve any compressed section by its marker ID"

也就是说,压缩是透明的——你可以在压缩率和可逆性之间自己权衡。

跟LLMLingua-2正面硬刚

image

官方还扔了一个对比数据:

在同样的压缩率下(ROUGE-L保真度测试):

  • 压缩率0.3(激进):Claw 0.653 vs LLMLingua-2 0.346,+88.2%
  • 压缩率0.5(平衡):Claw 0.723 vs LLMLingua-2 0.570,+26.8%

简单说:同样的压缩比例,Claw Compactor保留下来的语义内容更多

而且LLMLingua-2是需要加载模型的,Claw Compactor不需要。

零依赖,是真的零

看这个项目统计:

  • 必需依赖:0个
  • 可选依赖:tiktoken(精确Token计数)、tree-sitter(AST解析)
  • 不装可选依赖?也行,用内置的启发式fallback照跑不误

安装方式极其简单:

pip install claw-compactor

或者:

git clone https://github.com/open-compress/claw-compactor.git
cd claw-compactor
pip install -e .

然后:

claw-compactor compress /path/to/workspace

image

完事。

我的看法

说实话,Token压缩这个赛道已经卷麻了。各大厂都在推自己的方案,但大多离不开"模型"二字。

Claw Compactor的思路很简单粗暴:不用模型,用规则

14个Stage,每个都是针对特定内容类型精心设计的压缩器。代码用AST解析,JSON用统计采样,日志用行折叠——术业有专攻,打组合拳。

效果数据摆在那里,MIT开源,没有商业套路的免费午餐。

可能的问题是:实际生产环境跑起来能不能达到官方宣称的压缩率?各家的输入数据形态各异,官方测试用的是SWE-bench的样本,真实场景可能更复杂。

【MiniMax-M2.5锐评】:用14个专职Stage硬刚ML模型压缩,这波啊,这波是"用魔法打败魔法"的反向操作——不用魔法,反而赢了。

参考链接:
https://github.com/open-compress/claw-compactor