大模型的天,又要变了。

就在刚刚,Anthropic 直接甩出了王炸——Claude Opus 4.6。

说实话,看到数据的时候我稍微愣了一下。在名为 GDPval-AA 的评估里,这个新模型直接把行业里的“老二”——OpenAI 的 GPT-5.2,甩开了整整 144 Elo 分

这是什么概念?

换算成胜率,Opus 4.6 在处理高价值知识工作时,击败 GPT-5.2 的概率高达 70%。至于它的上一代 Opus 4.5,更是被拉开了 190 分的差距。

这哪里是升级,简直就是降维打击。

而且,这次 Anthropic 玩真的了。Opus 系列第一次迎来了 100万 token 的上下文窗口

这就意味着,你丢给它几本长篇小说、甚至整个公司的代码库,它都能一口气读完,还能记住细节。

AI配图

更狠的是,价格没涨。

还是 $5/$25 每百万 tokens。

这架势,摆明了是不给对手留活路。

编程不再是写代码,而是“管人”

现在的 AI,已经不满足于陪你聊天了。

Opus 4.6 这次最核心的进化,其实是“Agent(智能体)”能力的质变。

简单说,它以前是个“高级实习生”,你得手把手教它怎么干;现在它像个“高级项目经理”,你给个目标,它自己拆解任务,自己干,甚至还能自己查错。

Image 1: Notion logo

Notion 的评价很直接:它感觉不像个工具,更像个“有能力的合作者”。

这点我深有同感。以前用 AI 写代码,最怕中间报错,一旦断掉,前功尽弃。Opus 4.6 现在能在大型代码库里长时间保持“在线”状态,规划更缜密,还能自己 review 代码找出 bug。

看看这些大佬们的反馈,全是溢美之词:

Image 2: Replit logo

Replit 说,它在规划上有巨大飞跃,能把复杂任务拆成独立的子任务,并行跑工具,精准识别阻碍。

Image 3: Cognition logo

做 Devin 的 Cognition 甚至说,它能考虑到其他模型忽略的边缘情况,抓 Bug 的率明显提升了。

更有意思的是 Rakuten 的案例,这简直有点“恐怖”:

Image 11: Rakuten logo

它一天之内自主关闭了 13 个 issue,把 12 个 issue 分配给了正确的团队成员。管理了一个 50 人的组织,横跨 6 个代码仓库。它甚至知道什么时候该把问题“升级”给人类。

老实讲,这已经不是写代码了,这是在管理团队。

100万上下文,治好了 AI 的“健忘症”

“上下文腐烂”,这是大模型圈的一个老毛病。

聊得多了,AI 就忘了开头你说啥。尤其是处理海量文档时,它经常顾头不顾尾。

Opus 4.6 这次拿出了杀手锏:100万 token 上下文

为了证明这不是吹牛,有人拿它做了个“哈利波特测试”。

在热门评论里,有位开发者把《哈利波特》前 4 本书(约 73.3 万 token)丢给了 Opus 4.6,让它找里面所有的咒语。

结果呢?

官方文档里记录的 50 个咒语,它找出了 49 个

唯一漏掉的是一个生僻的“呕吐咒”。

Image 21: Benchmark table comparing Opus 4.6 to other models

这在以前是不可想象的。

数据不会撒谎。在一个叫 MRCR v2 的“大海捞针”测试里,Opus 4.6 拿到了 76% 的分数,而上一代 Sonnet 4.5 只有 18.5%

这就是质的飞跃。

Thomson Reuters 也证实了这一点:

他们看到 Opus 4.6 在处理更大量级的信息时,一致性极强,这让构建复杂的研究工作流成为了可能。

以前我们说 AI 有“记忆”,更多是个比喻。现在,它是真的能“记住”你扔给它的所有东西了。

办公室里的“超人”,Excel 和 PPT 都能搞

别以为 Opus 4.6 只是程序员的玩具。

Anthropic 这次在办公软件上也下了重注。

Claude in Excel 做了实质性升级,不仅能处理长任务,还能在没人指导的情况下,自己推断数据结构。甚至,它还能多步修改,一次性搞定。

Shopify 的人说,它甚至能创造出一些他没想到的细节。感觉不是在等它干活,而是跟它一起干活。

更绝的是,Claude 现在能进 PowerPoint 了。

它能读懂你的排版、字体、母版,保证生成的 PPT 符合你的品牌调性。你在 Excel 里理完数据,直接丢给它,它就能生成一套完整的演示文稿。

Harvey 的测试显示,在法律推理的 BigLaw Bench 上,Opus 4.6 拿到了 90.2% 的分数,其中 40% 是满分。

这对于金融、法律这些高门槛行业来说,简直就是个“外挂”。

真正的杀手锏,是学会了“偷懒”

有个很有意思的细节。

Anthropic 在介绍里提到,Opus 4.6 经常“想得太多”。

对于复杂问题,这是好事,它能深思熟虑。但对于简单问题,这就有点浪费算力和时间了,费钱还慢。

AI配图

所以,他们搞了个新功能:Effort(努力程度)控制

现在你可以手动调节它的“努力档位”:低、中、高(默认)、最大。

如果你发现它在一个简单任务上“发呆”,直接把档位调低就行。

这就很人性化。

而且,它还支持 Adaptive thinking(自适应思考)

模型自己会根据上下文线索,判断什么时候该深度思考,什么时候该速战速决。

这就好比雇佣了一个绝顶聪明的员工,但他不仅智商高,还特别懂人情世故,知道什么时候该全力以赴,什么时候该摸鱼省电。

另外,API 层面还推出了 Agent teams(代理团队)

你可以召唤一群 AI,像组团队一样让它们并行干活。Shift+Up/Down 就能直接接管任何一个子代理。

这画面感,简直就是指挥官在指挥一支机器人军队

参考链接:
https://www.anthropic.com/news/claude-opus-4-6