7-4。这不是NBA总决赛比分,是AI生死战的终场哨。

Anthropic刚刚放出Claude Opus 4.7,在关键基准测试上对GPT-5.4的比分是7比4。一个月前,OpenAI还在庆祝GPT-5.4登顶;一个月后,王座易主,但优势微弱得像在钢丝上跳舞。

更刺激的是,这家被风投追着报价8000亿美元(对,比2月份翻倍)的独角兽,同时被美国政府列入"供应链风险"黑名单,还被铁杆用户在GitHub上骂"AI缩水"。

这就是2026年4月的AI江湖:登顶与坠落,只在一线之间。

"严谨"成了最性感的卖点

Opus 4.7最狠的升级不是参数,是性格。

Anthropic给它的新标签叫**"Rigor"(严谨)**。说白了,这模型学会了"自我怀疑"。它不再像以前的AI那样,为了讨好你而胡编乱造。现在它会在回答前自己设计验证步骤,比如写完一段Rust代码,会主动用语音识别器检查输出是否匹配参考标准。

它从"答题机器"变成了"质检员"。

这种转变在数据上很直观:在SWE-bench Pro(专业编程测试)上,Opus 4.7解决了64.3%的任务,而GPT-5.4是53.4%。在GDPVal-AA知识工作评估中,它的Elo分数达到1753,甩开GPT-5.4(1674)和Gemini 3.1 Pro(1314)一条街。

但别急着欢呼。在Agentic Search(代理搜索)领域,GPT-5.4仍以89.3%碾压Opus 4.7的79.3%。多语言问答和原始终端编程,Google依然领先。

AI配图

没有通吃的王者,只有专精的杀手。

有意思的是,Anthropic这次还解决了AI的"视力问题"。Opus 4.7能处理最长边达2576像素的图像(约375万像素),是前代的三倍。在XBOW视觉敏锐度测试中,它从54.5%暴增至98.5%。那些密密麻麻的高DPI界面和复杂技术图表,终于不再是一片模糊。

藏起来的"大杀器":Mythos

Anthropic手里还捏着一张牌,没给普通人看。

Opus 4.7其实是"阉割版"——真正的完全体叫Mythos,目前只开放给少数外部企业合作伙伴做网络安全测试。在CyberGym(网络漏洞复现)测试中,Mythos达到83.1%,而Opus 4.7是73.1%,GPT-5.4是66.3%。

这种"双轨制"释放了一个明确信号:最危险的AI能力,以后可能只对持证专业人士开放。

Anthropic推出了"Cyber Verification Program",漏洞研究员、渗透测试师可以申请特许访问。这像是在说:菜刀可以卖给所有人,但冲锋枪需要执照。在AI安全争议日益尖锐的今天,这种"分级管控"或许是最现实的妥协。

8000亿的估值,与一地鸡毛

但光鲜的 benchmarks 背后,Anthropic正腹背受敌。

风投们确实疯狂——Series G时估值还是3800亿,现在报价已经飙到8000亿。年收入运行率冲到300亿美元,Claude Code在企业端的 adoption 爆炸式增长。

AI配图

然而,美国战争部(DoW)刚刚把这家公司列为"供应链风险",因为Anthropic拒绝让模型参与大规模监控或完全自主的致命武器系统。虽然旧金山法官最初阻止了这项认定,但联邦上诉小组最近拒绝了Anthropic的暂缓申请。这意味着在一场活跃的军事冲突期间,Anthropic被排除在利润丰厚的国防合同之外。

技术巅峰与政治谷底,同时发生。

更尴尬的是用户叛变。Reddit和GitHub上,开发者们正在声讨"AI shrinkflation"(AI缩水)。他们声称Opus 4.6和Claude Code桌面版被悄悄降级,出现更多探索循环、记忆丢失和指令忽略。有人直接吐槽:"估值近万亿的公司,交付的桌面应用像大学生作业。"

Opus 4.7的发布,某种程度上是Anthropic对这些质疑的回应:我们不是做不好,只是把精力放在了"深度思考"上。

从"看着AI干活"到"管理AI产出"

企业端的故事倒是另一番景象。

Intuit的技术VP Clarence Huang说,模型在规划阶段"捕捉自身逻辑错误"的能力改变了开发速度。Replit总裁Michele Catasta表示,在日志分析和漏洞挖掘任务上,Opus 4.7以更低的成本实现了更高的质量,"它真的像个更好的同事"

AI配图

Notion的AI负责人Sarah Sachs给出了具体数字:多步骤工作流程提升14%,工具调用错误减少66%。Devin的CEO Scott Wu说,Opus 4.7能连续工作"数小时",攻克以前会让模型卡住的难题。

最有趣的评价来自一家仪表盘公司的CEO Aj Orbach:他称赞模型的**"设计品味"**——在数据密集型界面的布局选择上,质量高到他"真的会直接发布"。

AI不再只是帮你起草邮件的实习生,而是能独立负责项目的资深员工。

当然,这种"独立"有代价。Opus 4.7使用了新的分词器,输入token数量可能增加1.0-1.35倍;它的"努力思考"模式会消耗更多token。Anthropic推出了"任务预算"功能,让你设置硬性消费上限,防止调试会话变成财务灾难。

还有,它现在遵循指令极其字面化。以前那种模糊、对话式的prompt可能会得到意外结果。如果你的旧系统建立在"AI会猜我意思"的基础上,迁移前得做好重写prompt的准备。

没有终局的战争

Anthropic这次发布,本质上是在定义AI的下一个阶段:从生成到验证,从辅助到自主。

当其他模型还在追求"看起来对"时,Opus 4.7在追求"确实对"。它不再试图做万事通,而是在知识工作、复杂编码和长期自主任务上建立护城河。

但这场战争远未结束。GPT-5.4在搜索领域依然领先,Gemini在多语言上占据优势,而Mythos的阴影暗示着Anthropic还有后手。更重要的是,当AI开始像人一样"严谨地"工作时,我们准备好把决策权交给它们了吗?

或许真正的转折点不是AI变得多聪明,而是我们终于敢让它们独自干活了。

【锐评】:当AI公司估值超过大多数国家GDP时,产品却还要靠"自我验证"来证明自己没缩水,这大概是2026年最赛博朋克的黑色幽默。

参考链接:
https://venturebeat.com/technology/anthropic-releases-claude-opus-4-7-narrowly-retaking-lead-for-most-powerful-generally-available-llm