从83%到68%:那个用23万次工具调用"抓包"Claude的AMD总监

6,852个会话文件。17,871个思考块。234,760次工具调用。

当Stella Laurenzo把这三个数字甩到GitHub上时,Anthropic的工程师们大概已经意识到——这次麻烦大了。

AI配图

作为AMD人工智能团队的高级总监,Laurenzo不是那种会对着AI发脾气的普通用户。她手里有日志,有数据,有从二月开始持续跟踪的硬核证据。而她的结论直白得刺耳:Claude Code已经退化到无法被信任用于复杂工程工作

"AI缩水":当推理深度成了奢侈品

事情爆发在四月。

Laurenzo的GitHub长帖像一颗深水炸弹。她指出,从今年二月开始,Claude的估计推理深度"断崖式下跌",伴随而来的是一系列让人抓狂的行为模式:任务做到一半突然放弃、遇到难题直接选择"最简单的修复"、陷入无意义的推理循环,以及从"研究优先"到"编辑优先"的明显转向。

对于每天把Claude Code当生产工具的重度用户来说,这种变化不是"感觉",而是生存问题。

很快,X上的开发者Om Patel接过了这把火。他声称有人"实际测量"了Claude变"笨"的程度,并抛出了一个触目惊心的数字:67%的性能下降。帖子迅速病毒式传播,"AI shrinkflation"(AI缩水)这个词被焊在了Anthropic身上——用户付着同样的钱,拿到的却是更弱的产品。

但最吸引眼球的,还是BridgeBench的那张截图。

基准测试的"罗生门"

AI配图

BridgeMind在4月12日发布的对比图简直像是故意要制造恐慌:Claude Opus 4.6的准确率从83.3%暴跌至68.3%,排名从第2滑到第10

"Claude被削弱了(nerfed)",帖子里这四个字被转发了上千次。

然而,就在舆论即将定罪时,独立研究员Paul Calcraft站了出来。他指出了大多数人忽略的细节:早前的测试只基于6个任务,而新的测试基于30个任务。"这是完全不同的基准测试",他在X上写道。

真相更尴尬:在两者共有的6个任务上,Claude的得分仅从87.6%微降至85.4%。那个惊人的68%和排名滑坡,主要来自一个包含24个新任务的测试集——而样本量差异和统计噪声,足以让这场"性能暴跌"的指控变得站不住脚。

BridgeBench的帖子后来被加上了社区注释,警告比较方法不科学。但 damage 已经造成:在社交媒体上,一张下跌的图表比一段严谨的技术澄清传播得快十倍

Anthropic的辩解:我们没"暗改",只是"明调"

面对滔天质疑,Anthropic没有装死。

Claude Code负责人Boris Cherny亲自下场。他承认了两件事:第一,默认努力级别(effort level)从"高"调到了"中等"(85级);第二,系统现在默认使用"自适应思考"

Cherny的解释很技术流:那个被用户诟病的"redact-thinking"头部只是UI改动,隐藏思考过程是为了降低延迟,并不影响实际的思考预算;而努力级别的调整,是因为太多用户抱怨Claude"太烧token"。

"用户可以通过输入/effort high手动切换回高级别。"

但说实话,这个回应在开发者社区里反响平平。对付费用户而言,"默认"就是产品的全部。当一家AI公司把"更少思考"设为默认,这算不算一种变相的降级?

更微妙的是缓存策略的变动。有用户通过分析近12万次API调用发现,提示缓存的TTL(生存时间)从1小时被悄然改为5分钟。这意味着长会话中的上下文更容易过期,系统需要更频繁地重建缓存——直接结果就是配额消耗更快。

Anthropic的Jarred Sumner承认了这次改动,但拒绝称之为"回退"。他辩称1小时缓存并非总是更便宜,5分钟在某些场景下更优。只是,这个解释听起来太像事后诸葛亮。

信任比模型权重更难修复

现在回到那个最根本的问题:Claude真的变笨了吗?

Anthropic技术员工Thariq Shihipar在X上斩钉截铁:"我们不会为了应对需求而降级模型。" 他们甚至把API用户的默认努力级别在4月7日重新调回了"高"。

但裂痕已经产生。

当OpenAI刚刚推出Codex、全力押注"氛围编程"(vibe coding)的当下,Anthropic却陷入了一场关于"是否偷偷省钱"的信任危机。讽刺的是,这场危机的导火索不是竞争对手的抹黑,而是自家最忠诚的重度用户拿出的数万条日志

技术层面的真相或许很复杂:可能是默认参数的微调,可能是UI的误导,也可能是统计噪声制造的幻觉。但用户层面的感知很简单:模型确实不像以前那样愿意深入思考复杂问题了

在这个AI能力日新月异的时代,"没变笨"这三个字,竟然成了最需要证明的命题

AI配图

而当一家以"AI安全"和"诚实"为卖点的公司,需要不断发推澄清"我们没有暗改"时,这本身是不是已经说明了什么?

【锐评】:当"默认设置"成为产品策略的遮羞布,用户用23万次调用扒下的不只是技术真相,更是AI巨头们面对算力焦虑时那点难以启齿的小心思。

参考链接:
https://venturebeat.com/technology/is-anthropic-nerfing-claude-users-increasingly-report-performance