一条评论,戳破了多少人的心酸

"快去搞副项目,我们有大约3天不被削弱的智能体编程时间了。"

这是Claude Opus 4.7发布后,评论区里点赞最高的调侃。

说实话,看到这句话我笑了,笑完又有点心酸。AI模型迭代到今天,用户的期待已经从"能不能更强"变成了"能不能别变弱"。

另一条评论更扎心:

"太晚了,4.6过去一周实在太烂,我被迫转向了Codex……昨晚我让4.6查一些简单的张量并行操作,它0次网络获取,直接幻觉了17K tokens。"

这不是黑粉,这是真实用户的真实体验。

而就在这种信任危机的关口,Anthropic扔出了Opus 4.7——混合推理模型,1M上下文窗口,号称在编程、视觉、复杂多步骤任务上全面突破。

问题是:这次,是真的突破,还是又一次"三天的狂欢"?

版本号跑得比时间还快

先看一组时间线。

  • 2025年5月,Claude Opus 4发布
  • 2025年8月,Opus 4.1上线
  • 2025年11月,Opus 4.5登场
  • 2026年2月,Opus 4.6推出
  • 2026年4月,Opus 4.7来了

不到一年,四个大版本迭代。

老实讲,这种更新速度,放在手机行业会被骂"挤牙膏",放在AI行业却被视为"军备竞赛"。

AI配图

但用户不是傻子。版本号跑得快,不代表体验跑得快。

有意思的是,Anthropic自己的措辞也在微妙变化:

Opus 4.5是"我们迄今为止最智能的模型",4.6是"迄今为止最强大的模型",到了4.7,变成了"我们迄今为止最强大、普遍可用的模型"。

加了个"普遍可用"。

我个人的理解是:他们终于意识到,"最强"不等于"最好用"。

这次,数据确实有点东西

AI配图

吐槽归吐槽,Opus 4.7的测试数据,确实有点东西。

CursorBench上,Opus 4.7跑出了70%的通过率,而4.6只有58%。这不是微弱领先,这是代际差距。

Rakuten-SWE-Bench更夸张——解决的生成任务数量是4.6的3倍,代码质量和测试质量都是两位数提升。

XBOW的视觉敏锐度测试,Opus 4.7拿到了98.5%的分数,4.6是多少?54.5%。

这个跳跃大到让我怀疑是不是测试方法有问题。但XBOW的原话是:"我们最大的Opus痛点,实际上消失了。"

Notion的反馈也很关键:复杂多步骤工作流,准确率提升14%,工具错误减少三分之二。这是第一个通过他们'隐性需求测试'的模型。

什么叫隐性需求?就是用户没说,但模型自己能意识到。

这才是真正的"智能"。

一个细节,暴露了真实野心

Opus 4.7有个功能叫"自适应思考"(Adaptive Thinking)。

简单说:简单问题快速回答,复杂问题多想一会儿。

听起来理所当然?但之前的模型不是这样。

它们要么对所有问题都"想很久",浪费时间和算力;要么对所有问题都"秒回",复杂任务直接翻车。

Opus 4.7会自己判断。

Replit的反馈很直接:

"我喜欢它在技术讨论中会反驳我,帮我做出更好的决策。它真的感觉像一个更好的同事。"

"会反驳你"——这才是AI助手该有的样子。

不是唯唯诺诺的执行机器,而是能说"我觉得你这个思路有问题"的合作者。

Quantium的评价也印证了这点:

"它不再简单地同意用户,而是对问题思考得更深,提出更有主见的观点。"

老实讲,这个变化比单纯的性能提升更让我兴奋。

但有个隐藏的"涨价"

Opus 4.7用了新的分词器。

官方的说法是:新分词器改进了文本处理方式,但代价是——同样的输入,可能映射到更多的tokens。

增幅在1.0到1.35倍之间。

什么意思?

就是你的输入还是那个输入,但计费的tokens可能变多了。

最高涨35%。

评论区有人调侃:

"Caveman[0](原始人模式)越来越有存在感了。我已经觉得读它的输出比普通模式更有趣,所以这对我很合适。"

——讽刺的是,用户已经开始用"更少tokens"的方式和AI对话了。

定价方面,Opus 4.7是输入$5/百万tokens,输出$25/百万tokens。

支持Prompt缓存(最高省90%)和批处理(省50%)。还有美国本土推理选项,加价10%。

贵吗?贵。值吗?看场景。

一个案例,让我重新审视它

AI配图

素材里有个案例,我必须单独拎出来说。

Opus 4.7自主完成了一个完整的Rust文本转语音引擎——神经网络模型、SIMD内核、浏览器演示——然后把自己的输出喂给语音识别器,验证是否与Python参考实现匹配。

几个月的高级工程工作,自主完成。

代码库已经公开。

这不是"帮我写个函数"级别的辅助,这是"你来搞定这个项目"级别的委托。

Vercel的反馈也提到了新行为:

"它甚至在开始工作前会对系统代码做形式化证明,这是我们从未在早期Claude模型中看到的新行为。"

自己给自己做证明,自己验证自己的代码。

这才是"代理"该有的样子——不是你盯着它干活,而是你交代任务,它自己搞定,自己检查,自己修正。

反转时刻:客户的评价,比官方更诚实

官方的宣传文案,永远都是"最强""突破""革命"。

但客户的反馈,才是真实水平。

我来摘几条:

Harvey(法律AI): "正确区分了转让条款和控制权变更条款——这是历史上困扰前沿模型的任务。"

Hebbia: "工具调用和规划的准确率,两位数提升。"

Factory: "任务成功率提升10%-15%,更关键的是——它会一直把工作做完,而不是半途而废。"

Qodo: "发现了其他模型放弃或未解决的问题。"

Warp: "通过了Terminal Bench上之前Claude模型失败的任务,解决了一个4.6搞不定的棘手并发bug。"

Bolt: "构建应用的长时间任务,最好情况下提升10%,而且没有我们习以为常的'非常智能体模型'的回退问题。"

注意这句话:"没有我们习以为常的回退问题。"

这说明什么?说明用户已经习惯了"新版本可能更差"。

尾声:信任,是最难迭代的版本

Opus 4.7很强,数据不说谎。

但评论区那条"我们有3天不被削弱的时间",才是用户真实心态的写照。

技术可以快速迭代,版本号可以疯狂飙升,信任的重建,却需要一次次"说到做到"的积累。

Anthropic显然意识到了这个问题——"普遍可用"四个字,就是最好的证明。

但用户需要的,不是"最强",而是"稳定的最强"。

三个月后,Opus 4.7还会是今天的Opus 4.7吗?

这个问题,只有时间能回答。


【锐评】:版本号跑赢了时间,但信任还在原地踏步——用户要的不是更强的模型,而是"明天还能用"的确定性。

参考链接:
https://www.anthropic.com/claude/opus