Claude 的"缓存刺客"：当 Pro Max 配额在1.5小时神秘蒸发

一个开发者买了 Pro Max 5x 套餐，准备大干一场。结果配额在1.5小时内归零。他以为自己疯了，直到翻开日志——发现了一场关于缓存的"隐形收割"。

这事儿说起来挺魔幻。

一位开发者，Pro Max 5x（Opus）套餐，配额重置后，正常使用——主要是问答、轻度开发，没干啥重活。结果呢？1.5小时，配额耗尽。

更离谱的是，配额重置前，他刚经历了5小时的高强度开发：多文件实现、知识图谱管道、多智能体协调……这些重活反而没把配额用完。

轻量使用暴毙，重度使用存活。这逻辑，有点意思。

配额消失之谜

这位开发者不是普通用户，他是会翻日志的那种。

AI配图

他打开了 ~/.claude/projects/ 下的 .jsonl 文件，逐条分析 API 返回的 usage 对象。数据不会撒谎：

Window 1（5小时，重度开发）：

API 调用：2,715次
缓存读取：1,044M tokens
缓存创建：16.8M tokens
输出：1.15M tokens
峰值上下文：966k tokens

Window 2（1.5小时，轻度使用）：

API 调用：691次（含后台会话）
缓存读取：103.9M tokens
缓存创建：1.4M tokens
输出：387k tokens

按理说，Window 2 的工作量远小于 Window 1。但配额偏偏在 Window 2 耗尽了。

问题出在哪？

缓存读取的计费逻辑。

Anthropic 官方宣称，prompt caching 可以让缓存命中的 token 按 1/10 的费率计算。这是 prompt caching 的核心卖点——省钱、省配额。

但这位开发者的计算揭示了一个残酷的可能性：

如果缓存读取按 1/10 计费，Window 2 的有效 token 消耗应该是 13.1M，根本不可能耗尽配额。

但如果缓存读取按全价计费，Window 2 的消耗是 105.7M tokens，配额耗尽就说得通了。

这意味着：prompt caching 对配额限制，可能没有任何实际好处。

你省了 API 费用，但没省配额。就像餐厅说"米饭免费"，但限你只能吃一碗。

TTL 悄悄缩水，从1小时到5分钟

如果说上面的发现是"计费逻辑疑云"，那接下来这件事，就是实锤的"暗改门"。

另一位开发者挖出了更劲爆的东西：

Anthropic 在 3 月 6 日左右，悄悄将缓存 TTL（生存时间）从 1 小时降到了 5 分钟。

AI配图

TTL 是什么？简单说，就是你的缓存能活多久。1 小时意味着你 1 小时内重复调用相同内容，缓存命中，省钱。5 分钟？你得在 5 分钟内重复调用才能命中——这几乎把缓存的实用价值砍没了。

这位开发者同样是用日志说话：

数据来源：~/.claude/projects/**/*.jsonl 会话文件，直接从 Claude Code 的本地日志提取，没有经过任何第三方工具。

这不是猜测，是数据。而且数据来自 Anthropic 自己的产品日志。

134 个用户在这个 issue 下点了赞，35 个用户表示"正在关注"。

这说明什么？这不是个例。

开发者的"福尔摩斯时刻"

说实话，这两件事放在一起看，画面就清晰了。

一边是缓存计费逻辑的"疑似不透明"——缓存读取可能没按承诺的折扣计入配额。另一边是缓存 TTL 的"悄悄缩水"——从 1 小时变 5 分钟，大幅降低缓存命中率。

两件事叠加，就是双重打击：

缓存更难命中（TTL 缩短）
即使命中，配额优惠可能也不存在（计费逻辑存疑）

开发者买 Pro Max 套餐，图的是啥？图的是能干活、能省心。结果发现，自己像是在一个不断缩水的泳池里游泳——你游得再快，池子也在变小。

最讽刺的是，这些发现都是开发者自己翻日志翻出来的。

平台没有公告，没有通知，没有解释。只有用户在 GitHub issue 里互相验证，拼凑真相。

这不是技术问题，是信任问题

老实讲，我个人觉得这事儿最核心的矛盾，不在于技术细节。

AI配图

缓存计费怎么算？TTL 设多少合适？这些都可以讨论。但悄悄改、不透明、让用户自己发现——这才是真正让开发者寒心的地方。

AI 行业现在卷得厉害，各家都在抢开发者生态。Anthropic 以"安全""透明"著称，Claude 系列产品也确实在技术上有两把刷子。但这种"暗改参数"的操作，说实话，不太体面。

开发者不是韭菜。

他们懂技术、懂数据、会看日志。你改了什么，他们迟早会发现。区别只在于：是你主动告知，还是被揪出来。

前者是"产品调整"，后者是"信任危机"。

平台的隐形收割？

更有意思的是，这两件事都指向同一个方向：成本和配额的"隐形膨胀"。

用户以为买了 5x 配额，实际能用多久，取决于一堆你看不见的参数：缓存 TTL、缓存计费比例、上下文窗口的压缩策略……这些参数怎么设、怎么改，全在平台手里。

用户能控制的，只有"买不买"。买了之后怎么用，规则随时可能变。

这就像你办了张健身卡，健身房悄悄把跑步机速度上限调低了、器械数量减半了，但月费照收。你说气不气？

当然，Anthropic 可能有自己的理由：成本压力、系统优化、防止滥用……这些都可以理解。但理解归理解，透明是底线。

你改了，就得说。不说，就是藏着掖着。

写在最后：

这两位开发者用日志和数据，撕开了一角真相。但更多用户可能根本不知道自己的配额为什么用得这么快、成本为什么涨了。

"缓存刺客"最可怕的地方，在于你看不见它。

现在，至少有人看见了。

【锐评】：当"省钱功能"变成"隐形收割"，开发者能做的只有一件事——翻日志，把真相挖出来。

参考来源：