Claude被“削弱”了？用户集体投诉性能下降，Anthropic回应引争议

从83%到68%：那个用23万次工具调用"抓包"Claude的AMD总监

6,852个会话文件。17,871个思考块。234,760次工具调用。

当Stella Laurenzo把这三个数字甩到GitHub上时，Anthropic的工程师们大概已经意识到——这次麻烦大了。

AI配图

作为AMD人工智能团队的高级总监，Laurenzo不是那种会对着AI发脾气的普通用户。她手里有日志，有数据，有从二月开始持续跟踪的硬核证据。而她的结论直白得刺耳：Claude Code已经退化到无法被信任用于复杂工程工作。

"AI缩水"：当推理深度成了奢侈品

事情爆发在四月。

Laurenzo的GitHub长帖像一颗深水炸弹。她指出，从今年二月开始，Claude的估计推理深度"断崖式下跌"，伴随而来的是一系列让人抓狂的行为模式：任务做到一半突然放弃、遇到难题直接选择"最简单的修复"、陷入无意义的推理循环，以及从"研究优先"到"编辑优先"的明显转向。

对于每天把Claude Code当生产工具的重度用户来说，这种变化不是"感觉"，而是生存问题。

很快，X上的开发者Om Patel接过了这把火。他声称有人"实际测量"了Claude变"笨"的程度，并抛出了一个触目惊心的数字：67%的性能下降。帖子迅速病毒式传播，"AI shrinkflation"（AI缩水）这个词被焊在了Anthropic身上——用户付着同样的钱，拿到的却是更弱的产品。

但最吸引眼球的，还是BridgeBench的那张截图。

基准测试的"罗生门"

AI配图

BridgeMind在4月12日发布的对比图简直像是故意要制造恐慌：Claude Opus 4.6的准确率从83.3%暴跌至68.3%，排名从第2滑到第10。

"Claude被削弱了（nerfed）"，帖子里这四个字被转发了上千次。

然而，就在舆论即将定罪时，独立研究员Paul Calcraft站了出来。他指出了大多数人忽略的细节：早前的测试只基于6个任务，而新的测试基于30个任务。"这是完全不同的基准测试"，他在X上写道。

真相更尴尬：在两者共有的6个任务上，Claude的得分仅从87.6%微降至85.4%。那个惊人的68%和排名滑坡，主要来自一个包含24个新任务的测试集——而样本量差异和统计噪声，足以让这场"性能暴跌"的指控变得站不住脚。

BridgeBench的帖子后来被加上了社区注释，警告比较方法不科学。但 damage 已经造成：在社交媒体上，一张下跌的图表比一段严谨的技术澄清传播得快十倍。

Anthropic的辩解：我们没"暗改"，只是"明调"

面对滔天质疑，Anthropic没有装死。

Claude Code负责人Boris Cherny亲自下场。他承认了两件事：第一，默认努力级别（effort level）从"高"调到了"中等"（85级）；第二，系统现在默认使用"自适应思考"。

Cherny的解释很技术流：那个被用户诟病的"redact-thinking"头部只是UI改动，隐藏思考过程是为了降低延迟，并不影响实际的思考预算；而努力级别的调整，是因为太多用户抱怨Claude"太烧token"。

"用户可以通过输入/effort high手动切换回高级别。"

但说实话，这个回应在开发者社区里反响平平。对付费用户而言，"默认"就是产品的全部。当一家AI公司把"更少思考"设为默认，这算不算一种变相的降级？

更微妙的是缓存策略的变动。有用户通过分析近12万次API调用发现，提示缓存的TTL（生存时间）从1小时被悄然改为5分钟。这意味着长会话中的上下文更容易过期，系统需要更频繁地重建缓存——直接结果就是配额消耗更快。

Anthropic的Jarred Sumner承认了这次改动，但拒绝称之为"回退"。他辩称1小时缓存并非总是更便宜，5分钟在某些场景下更优。只是，这个解释听起来太像事后诸葛亮。

信任比模型权重更难修复

现在回到那个最根本的问题：Claude真的变笨了吗？

Anthropic技术员工Thariq Shihipar在X上斩钉截铁："我们不会为了应对需求而降级模型。" 他们甚至把API用户的默认努力级别在4月7日重新调回了"高"。

但裂痕已经产生。

当OpenAI刚刚推出Codex、全力押注"氛围编程"（vibe coding）的当下，Anthropic却陷入了一场关于"是否偷偷省钱"的信任危机。讽刺的是，这场危机的导火索不是竞争对手的抹黑，而是自家最忠诚的重度用户拿出的数万条日志。

技术层面的真相或许很复杂：可能是默认参数的微调，可能是UI的误导，也可能是统计噪声制造的幻觉。但用户层面的感知很简单：模型确实不像以前那样愿意深入思考复杂问题了。

在这个AI能力日新月异的时代，"没变笨"这三个字，竟然成了最需要证明的命题。

AI配图

而当一家以"AI安全"和"诚实"为卖点的公司，需要不断发推澄清"我们没有暗改"时，这本身是不是已经说明了什么？

【锐评】：当"默认设置"成为产品策略的遮羞布，用户用23万次调用扒下的不只是技术真相，更是AI巨头们面对算力焦虑时那点难以启齿的小心思。

参考链接：
https://venturebeat.com/technology/is-anthropic-nerfing-claude-users-increasingly-report-performance