一个开发者买了 Pro Max 5x 套餐,准备大干一场。结果配额在1.5小时内归零。他以为自己疯了,直到翻开日志——发现了一场关于缓存的"隐形收割"。


这事儿说起来挺魔幻。

一位开发者,Pro Max 5x(Opus)套餐,配额重置后,正常使用——主要是问答、轻度开发,没干啥重活。结果呢?1.5小时,配额耗尽。

更离谱的是,配额重置前,他刚经历了5小时的高强度开发:多文件实现、知识图谱管道、多智能体协调……这些重活反而没把配额用完。

轻量使用暴毙,重度使用存活。这逻辑,有点意思。

配额消失之谜

这位开发者不是普通用户,他是会翻日志的那种。

AI配图

他打开了 ~/.claude/projects/ 下的 .jsonl 文件,逐条分析 API 返回的 usage 对象。数据不会撒谎:

Window 1(5小时,重度开发)

  • API 调用:2,715次
  • 缓存读取:1,044M tokens
  • 缓存创建:16.8M tokens
  • 输出:1.15M tokens
  • 峰值上下文:966k tokens

Window 2(1.5小时,轻度使用)

  • API 调用:691次(含后台会话)
  • 缓存读取:103.9M tokens
  • 缓存创建:1.4M tokens
  • 输出:387k tokens

按理说,Window 2 的工作量远小于 Window 1。但配额偏偏在 Window 2 耗尽了。

问题出在哪?

缓存读取的计费逻辑。

Anthropic 官方宣称,prompt caching 可以让缓存命中的 token 按 1/10 的费率计算。这是 prompt caching 的核心卖点——省钱、省配额。

但这位开发者的计算揭示了一个残酷的可能性:

如果缓存读取按 1/10 计费,Window 2 的有效 token 消耗应该是 13.1M,根本不可能耗尽配额。

但如果缓存读取按全价计费,Window 2 的消耗是 105.7M tokens,配额耗尽就说得通了。

这意味着:prompt caching 对配额限制,可能没有任何实际好处。

你省了 API 费用,但没省配额。就像餐厅说"米饭免费",但限你只能吃一碗。

TTL 悄悄缩水,从1小时到5分钟

如果说上面的发现是"计费逻辑疑云",那接下来这件事,就是实锤的"暗改门"。

另一位开发者挖出了更劲爆的东西:

Anthropic 在 3 月 6 日左右,悄悄将缓存 TTL(生存时间)从 1 小时降到了 5 分钟。

AI配图

TTL 是什么?简单说,就是你的缓存能活多久。1 小时意味着你 1 小时内重复调用相同内容,缓存命中,省钱。5 分钟?你得在 5 分钟内重复调用才能命中——这几乎把缓存的实用价值砍没了。

这位开发者同样是用日志说话:

数据来源:~/.claude/projects/**/*.jsonl 会话文件,直接从 Claude Code 的本地日志提取,没有经过任何第三方工具。

这不是猜测,是数据。而且数据来自 Anthropic 自己的产品日志。

134 个用户在这个 issue 下点了赞,35 个用户表示"正在关注"。

这说明什么?这不是个例。

开发者的"福尔摩斯时刻"

说实话,这两件事放在一起看,画面就清晰了。

一边是缓存计费逻辑的"疑似不透明"——缓存读取可能没按承诺的折扣计入配额。另一边是缓存 TTL 的"悄悄缩水"——从 1 小时变 5 分钟,大幅降低缓存命中率。

两件事叠加,就是双重打击:

  1. 缓存更难命中(TTL 缩短)
  2. 即使命中,配额优惠可能也不存在(计费逻辑存疑)

开发者买 Pro Max 套餐,图的是啥?图的是能干活、能省心。结果发现,自己像是在一个不断缩水的泳池里游泳——你游得再快,池子也在变小。

最讽刺的是,这些发现都是开发者自己翻日志翻出来的。

平台没有公告,没有通知,没有解释。只有用户在 GitHub issue 里互相验证,拼凑真相。

这不是技术问题,是信任问题

老实讲,我个人觉得这事儿最核心的矛盾,不在于技术细节。

AI配图

缓存计费怎么算?TTL 设多少合适?这些都可以讨论。但悄悄改、不透明、让用户自己发现——这才是真正让开发者寒心的地方。

AI 行业现在卷得厉害,各家都在抢开发者生态。Anthropic 以"安全""透明"著称,Claude 系列产品也确实在技术上有两把刷子。但这种"暗改参数"的操作,说实话,不太体面。

开发者不是韭菜。

他们懂技术、懂数据、会看日志。你改了什么,他们迟早会发现。区别只在于:是你主动告知,还是被揪出来。

前者是"产品调整",后者是"信任危机"。

平台的隐形收割?

更有意思的是,这两件事都指向同一个方向:成本和配额的"隐形膨胀"。

用户以为买了 5x 配额,实际能用多久,取决于一堆你看不见的参数:缓存 TTL、缓存计费比例、上下文窗口的压缩策略……这些参数怎么设、怎么改,全在平台手里。

用户能控制的,只有"买不买"。买了之后怎么用,规则随时可能变。

这就像你办了张健身卡,健身房悄悄把跑步机速度上限调低了、器械数量减半了,但月费照收。你说气不气?

当然,Anthropic 可能有自己的理由:成本压力、系统优化、防止滥用……这些都可以理解。但理解归理解,透明是底线。

你改了,就得说。不说,就是藏着掖着。


写在最后:

这两位开发者用日志和数据,撕开了一角真相。但更多用户可能根本不知道自己的配额为什么用得这么快、成本为什么涨了。

"缓存刺客"最可怕的地方,在于你看不见它。

现在,至少有人看见了。


【锐评】:当"省钱功能"变成"隐形收割",开发者能做的只有一件事——翻日志,把真相挖出来。


参考来源: