一年迭代四个版本，Claude Opus 4.7来了，程序员却只想问：这次能用多久？

一条评论，戳破了多少人的心酸

"快去搞副项目，我们有大约3天不被削弱的智能体编程时间了。"

这是Claude Opus 4.7发布后，评论区里点赞最高的调侃。

说实话，看到这句话我笑了，笑完又有点心酸。AI模型迭代到今天，用户的期待已经从"能不能更强"变成了"能不能别变弱"。

另一条评论更扎心：

"太晚了，4.6过去一周实在太烂，我被迫转向了Codex……昨晚我让4.6查一些简单的张量并行操作，它0次网络获取，直接幻觉了17K tokens。"

这不是黑粉，这是真实用户的真实体验。

而就在这种信任危机的关口，Anthropic扔出了Opus 4.7——混合推理模型，1M上下文窗口，号称在编程、视觉、复杂多步骤任务上全面突破。

问题是：这次，是真的突破，还是又一次"三天的狂欢"？

版本号跑得比时间还快

先看一组时间线。

2025年5月，Claude Opus 4发布
2025年8月，Opus 4.1上线
2025年11月，Opus 4.5登场
2026年2月，Opus 4.6推出
2026年4月，Opus 4.7来了

不到一年，四个大版本迭代。

老实讲，这种更新速度，放在手机行业会被骂"挤牙膏"，放在AI行业却被视为"军备竞赛"。

AI配图

但用户不是傻子。版本号跑得快，不代表体验跑得快。

有意思的是，Anthropic自己的措辞也在微妙变化：

Opus 4.5是"我们迄今为止最智能的模型"，4.6是"迄今为止最强大的模型"，到了4.7，变成了"我们迄今为止最强大、普遍可用的模型"。

加了个"普遍可用"。

我个人的理解是：他们终于意识到，"最强"不等于"最好用"。

这次，数据确实有点东西

AI配图

吐槽归吐槽，Opus 4.7的测试数据，确实有点东西。

CursorBench上，Opus 4.7跑出了70%的通过率，而4.6只有58%。这不是微弱领先，这是代际差距。

Rakuten-SWE-Bench更夸张——解决的生成任务数量是4.6的3倍，代码质量和测试质量都是两位数提升。

XBOW的视觉敏锐度测试，Opus 4.7拿到了98.5%的分数，4.6是多少？54.5%。

这个跳跃大到让我怀疑是不是测试方法有问题。但XBOW的原话是："我们最大的Opus痛点，实际上消失了。"

Notion的反馈也很关键：复杂多步骤工作流，准确率提升14%，工具错误减少三分之二。这是第一个通过他们'隐性需求测试'的模型。

什么叫隐性需求？就是用户没说，但模型自己能意识到。

这才是真正的"智能"。

一个细节，暴露了真实野心

Opus 4.7有个功能叫"自适应思考"（Adaptive Thinking）。

简单说：简单问题快速回答，复杂问题多想一会儿。

听起来理所当然？但之前的模型不是这样。

它们要么对所有问题都"想很久"，浪费时间和算力；要么对所有问题都"秒回"，复杂任务直接翻车。

Opus 4.7会自己判断。

Replit的反馈很直接：

"我喜欢它在技术讨论中会反驳我，帮我做出更好的决策。它真的感觉像一个更好的同事。"

"会反驳你"——这才是AI助手该有的样子。

不是唯唯诺诺的执行机器，而是能说"我觉得你这个思路有问题"的合作者。

Quantium的评价也印证了这点：

"它不再简单地同意用户，而是对问题思考得更深，提出更有主见的观点。"

老实讲，这个变化比单纯的性能提升更让我兴奋。

但有个隐藏的"涨价"

Opus 4.7用了新的分词器。

官方的说法是：新分词器改进了文本处理方式，但代价是——同样的输入，可能映射到更多的tokens。

增幅在1.0到1.35倍之间。

什么意思？

就是你的输入还是那个输入，但计费的tokens可能变多了。

最高涨35%。

评论区有人调侃：

"Caveman[0]（原始人模式）越来越有存在感了。我已经觉得读它的输出比普通模式更有趣，所以这对我很合适。"

——讽刺的是，用户已经开始用"更少tokens"的方式和AI对话了。

定价方面，Opus 4.7是输入$5/百万tokens，输出$25/百万tokens。

支持Prompt缓存（最高省90%）和批处理（省50%）。还有美国本土推理选项，加价10%。

贵吗？贵。值吗？看场景。

一个案例，让我重新审视它

AI配图

素材里有个案例，我必须单独拎出来说。

Opus 4.7自主完成了一个完整的Rust文本转语音引擎——神经网络模型、SIMD内核、浏览器演示——然后把自己的输出喂给语音识别器，验证是否与Python参考实现匹配。

几个月的高级工程工作，自主完成。

代码库已经公开。

这不是"帮我写个函数"级别的辅助，这是"你来搞定这个项目"级别的委托。

Vercel的反馈也提到了新行为：

"它甚至在开始工作前会对系统代码做形式化证明，这是我们从未在早期Claude模型中看到的新行为。"

自己给自己做证明，自己验证自己的代码。

这才是"代理"该有的样子——不是你盯着它干活，而是你交代任务，它自己搞定，自己检查，自己修正。

反转时刻：客户的评价，比官方更诚实

官方的宣传文案，永远都是"最强""突破""革命"。

但客户的反馈，才是真实水平。

我来摘几条：

Harvey（法律AI）： "正确区分了转让条款和控制权变更条款——这是历史上困扰前沿模型的任务。"

Hebbia： "工具调用和规划的准确率，两位数提升。"

Factory： "任务成功率提升10%-15%，更关键的是——它会一直把工作做完，而不是半途而废。"

Qodo： "发现了其他模型放弃或未解决的问题。"

Warp： "通过了Terminal Bench上之前Claude模型失败的任务，解决了一个4.6搞不定的棘手并发bug。"

Bolt： "构建应用的长时间任务，最好情况下提升10%，而且没有我们习以为常的'非常智能体模型'的回退问题。"

注意这句话："没有我们习以为常的回退问题。"

这说明什么？说明用户已经习惯了"新版本可能更差"。

尾声：信任，是最难迭代的版本

Opus 4.7很强，数据不说谎。

但评论区那条"我们有3天不被削弱的时间"，才是用户真实心态的写照。

技术可以快速迭代，版本号可以疯狂飙升，信任的重建，却需要一次次"说到做到"的积累。

Anthropic显然意识到了这个问题——"普遍可用"四个字，就是最好的证明。

但用户需要的，不是"最强"，而是"稳定的最强"。

三个月后，Opus 4.7还会是今天的Opus 4.7吗？

这个问题，只有时间能回答。

【锐评】：版本号跑赢了时间，但信任还在原地踏步——用户要的不是更强的模型，而是"明天还能用"的确定性。

参考链接：
https://www.anthropic.com/claude/opus