Anthropic 发布 Claude Opus 4.7，在 Agent 能力上微弱优势反超 GPT-5.4

7-4。这不是NBA总决赛比分，是AI生死战的终场哨。

Anthropic刚刚放出Claude Opus 4.7，在关键基准测试上对GPT-5.4的比分是7比4。一个月前，OpenAI还在庆祝GPT-5.4登顶；一个月后，王座易主，但优势微弱得像在钢丝上跳舞。

更刺激的是，这家被风投追着报价8000亿美元（对，比2月份翻倍）的独角兽，同时被美国政府列入"供应链风险"黑名单，还被铁杆用户在GitHub上骂"AI缩水"。

这就是2026年4月的AI江湖：登顶与坠落，只在一线之间。

"严谨"成了最性感的卖点

Opus 4.7最狠的升级不是参数，是性格。

Anthropic给它的新标签叫**"Rigor"（严谨）**。说白了，这模型学会了"自我怀疑"。它不再像以前的AI那样，为了讨好你而胡编乱造。现在它会在回答前自己设计验证步骤，比如写完一段Rust代码，会主动用语音识别器检查输出是否匹配参考标准。

它从"答题机器"变成了"质检员"。

这种转变在数据上很直观：在SWE-bench Pro（专业编程测试）上，Opus 4.7解决了64.3%的任务，而GPT-5.4是53.4%。在GDPVal-AA知识工作评估中，它的Elo分数达到1753，甩开GPT-5.4（1674）和Gemini 3.1 Pro（1314）一条街。

但别急着欢呼。在Agentic Search（代理搜索）领域，GPT-5.4仍以89.3%碾压Opus 4.7的79.3%。多语言问答和原始终端编程，Google依然领先。

AI配图

没有通吃的王者，只有专精的杀手。

有意思的是，Anthropic这次还解决了AI的"视力问题"。Opus 4.7能处理最长边达2576像素的图像（约375万像素），是前代的三倍。在XBOW视觉敏锐度测试中，它从54.5%暴增至98.5%。那些密密麻麻的高DPI界面和复杂技术图表，终于不再是一片模糊。

藏起来的"大杀器"：Mythos

Anthropic手里还捏着一张牌，没给普通人看。

Opus 4.7其实是"阉割版"——真正的完全体叫Mythos，目前只开放给少数外部企业合作伙伴做网络安全测试。在CyberGym（网络漏洞复现）测试中，Mythos达到83.1%，而Opus 4.7是73.1%，GPT-5.4是66.3%。

这种"双轨制"释放了一个明确信号：最危险的AI能力，以后可能只对持证专业人士开放。

Anthropic推出了"Cyber Verification Program"，漏洞研究员、渗透测试师可以申请特许访问。这像是在说：菜刀可以卖给所有人，但冲锋枪需要执照。在AI安全争议日益尖锐的今天，这种"分级管控"或许是最现实的妥协。

8000亿的估值，与一地鸡毛

但光鲜的 benchmarks 背后，Anthropic正腹背受敌。

风投们确实疯狂——Series G时估值还是3800亿，现在报价已经飙到8000亿。年收入运行率冲到300亿美元，Claude Code在企业端的 adoption 爆炸式增长。

AI配图

然而，美国战争部（DoW）刚刚把这家公司列为"供应链风险"，因为Anthropic拒绝让模型参与大规模监控或完全自主的致命武器系统。虽然旧金山法官最初阻止了这项认定，但联邦上诉小组最近拒绝了Anthropic的暂缓申请。这意味着在一场活跃的军事冲突期间，Anthropic被排除在利润丰厚的国防合同之外。

技术巅峰与政治谷底，同时发生。

更尴尬的是用户叛变。Reddit和GitHub上，开发者们正在声讨"AI shrinkflation"（AI缩水）。他们声称Opus 4.6和Claude Code桌面版被悄悄降级，出现更多探索循环、记忆丢失和指令忽略。有人直接吐槽："估值近万亿的公司，交付的桌面应用像大学生作业。"

Opus 4.7的发布，某种程度上是Anthropic对这些质疑的回应：我们不是做不好，只是把精力放在了"深度思考"上。

从"看着AI干活"到"管理AI产出"

企业端的故事倒是另一番景象。

Intuit的技术VP Clarence Huang说，模型在规划阶段"捕捉自身逻辑错误"的能力改变了开发速度。Replit总裁Michele Catasta表示，在日志分析和漏洞挖掘任务上，Opus 4.7以更低的成本实现了更高的质量，"它真的像个更好的同事"。

AI配图

Notion的AI负责人Sarah Sachs给出了具体数字：多步骤工作流程提升14%，工具调用错误减少66%。Devin的CEO Scott Wu说，Opus 4.7能连续工作"数小时"，攻克以前会让模型卡住的难题。

最有趣的评价来自一家仪表盘公司的CEO Aj Orbach：他称赞模型的**"设计品味"**——在数据密集型界面的布局选择上，质量高到他"真的会直接发布"。

AI不再只是帮你起草邮件的实习生，而是能独立负责项目的资深员工。

当然，这种"独立"有代价。Opus 4.7使用了新的分词器，输入token数量可能增加1.0-1.35倍；它的"努力思考"模式会消耗更多token。Anthropic推出了"任务预算"功能，让你设置硬性消费上限，防止调试会话变成财务灾难。

还有，它现在遵循指令极其字面化。以前那种模糊、对话式的prompt可能会得到意外结果。如果你的旧系统建立在"AI会猜我意思"的基础上，迁移前得做好重写prompt的准备。

没有终局的战争

Anthropic这次发布，本质上是在定义AI的下一个阶段：从生成到验证，从辅助到自主。

当其他模型还在追求"看起来对"时，Opus 4.7在追求"确实对"。它不再试图做万事通，而是在知识工作、复杂编码和长期自主任务上建立护城河。

但这场战争远未结束。GPT-5.4在搜索领域依然领先，Gemini在多语言上占据优势，而Mythos的阴影暗示着Anthropic还有后手。更重要的是，当AI开始像人一样"严谨地"工作时，我们准备好把决策权交给它们了吗？

或许真正的转折点不是AI变得多聪明，而是我们终于敢让它们独自干活了。

【锐评】：当AI公司估值超过大多数国家GDP时，产品却还要靠"自我验证"来证明自己没缩水，这大概是2026年最赛博朋克的黑色幽默。

参考链接：
https://venturebeat.com/technology/anthropic-releases-claude-opus-4-7-narrowly-retaking-lead-for-most-powerful-generally-available-llm