Claude 4.6 炸场：GPT-5.2 被拉开 144 分，100万上下文只是开胃菜？

大模型的天，又要变了。

就在刚刚，Anthropic 直接甩出了王炸——Claude Opus 4.6。

说实话，看到数据的时候我稍微愣了一下。在名为 GDPval-AA 的评估里，这个新模型直接把行业里的“老二”——OpenAI 的 GPT-5.2，甩开了整整 144 Elo 分。

这是什么概念？

换算成胜率，Opus 4.6 在处理高价值知识工作时，击败 GPT-5.2 的概率高达 70%。至于它的上一代 Opus 4.5，更是被拉开了 190 分的差距。

这哪里是升级，简直就是降维打击。

而且，这次 Anthropic 玩真的了。Opus 系列第一次迎来了 100万 token 的上下文窗口。

这就意味着，你丢给它几本长篇小说、甚至整个公司的代码库，它都能一口气读完，还能记住细节。

AI配图

更狠的是，价格没涨。

还是 $5/$25 每百万 tokens。

这架势，摆明了是不给对手留活路。

编程不再是写代码，而是“管人”

现在的 AI，已经不满足于陪你聊天了。

Opus 4.6 这次最核心的进化，其实是“Agent（智能体）”能力的质变。

简单说，它以前是个“高级实习生”，你得手把手教它怎么干；现在它像个“高级项目经理”，你给个目标，它自己拆解任务，自己干，甚至还能自己查错。

Image 1: Notion logo

Notion 的评价很直接：它感觉不像个工具，更像个“有能力的合作者”。

这点我深有同感。以前用 AI 写代码，最怕中间报错，一旦断掉，前功尽弃。Opus 4.6 现在能在大型代码库里长时间保持“在线”状态，规划更缜密，还能自己 review 代码找出 bug。

看看这些大佬们的反馈，全是溢美之词：

Image 2: Replit logo

Replit 说，它在规划上有巨大飞跃，能把复杂任务拆成独立的子任务，并行跑工具，精准识别阻碍。

Image 3: Cognition logo

做 Devin 的 Cognition 甚至说，它能考虑到其他模型忽略的边缘情况，抓 Bug 的率明显提升了。

更有意思的是 Rakuten 的案例，这简直有点“恐怖”：

Image 11: Rakuten logo

它一天之内自主关闭了 13 个 issue，把 12 个 issue 分配给了正确的团队成员。管理了一个 50 人的组织，横跨 6 个代码仓库。它甚至知道什么时候该把问题“升级”给人类。

老实讲，这已经不是写代码了，这是在管理团队。

100万上下文，治好了 AI 的“健忘症”

“上下文腐烂”，这是大模型圈的一个老毛病。

聊得多了，AI 就忘了开头你说啥。尤其是处理海量文档时，它经常顾头不顾尾。

Opus 4.6 这次拿出了杀手锏：100万 token 上下文。

为了证明这不是吹牛，有人拿它做了个“哈利波特测试”。

在热门评论里，有位开发者把《哈利波特》前 4 本书（约 73.3 万 token）丢给了 Opus 4.6，让它找里面所有的咒语。

结果呢？

官方文档里记录的 50 个咒语，它找出了 49 个。

唯一漏掉的是一个生僻的“呕吐咒”。

Image 21: Benchmark table comparing Opus 4.6 to other models

这在以前是不可想象的。

数据不会撒谎。在一个叫 MRCR v2 的“大海捞针”测试里，Opus 4.6 拿到了 76% 的分数，而上一代 Sonnet 4.5 只有 18.5%。

这就是质的飞跃。

Thomson Reuters 也证实了这一点：

他们看到 Opus 4.6 在处理更大量级的信息时，一致性极强，这让构建复杂的研究工作流成为了可能。

以前我们说 AI 有“记忆”，更多是个比喻。现在，它是真的能“记住”你扔给它的所有东西了。

办公室里的“超人”，Excel 和 PPT 都能搞

别以为 Opus 4.6 只是程序员的玩具。

Anthropic 这次在办公软件上也下了重注。

Claude in Excel 做了实质性升级，不仅能处理长任务，还能在没人指导的情况下，自己推断数据结构。甚至，它还能多步修改，一次性搞定。

Shopify 的人说，它甚至能创造出一些他没想到的细节。感觉不是在等它干活，而是跟它一起干活。

更绝的是，Claude 现在能进 PowerPoint 了。

它能读懂你的排版、字体、母版，保证生成的 PPT 符合你的品牌调性。你在 Excel 里理完数据，直接丢给它，它就能生成一套完整的演示文稿。

Harvey 的测试显示，在法律推理的 BigLaw Bench 上，Opus 4.6 拿到了 90.2% 的分数，其中 40% 是满分。

这对于金融、法律这些高门槛行业来说，简直就是个“外挂”。

真正的杀手锏，是学会了“偷懒”

有个很有意思的细节。

Anthropic 在介绍里提到，Opus 4.6 经常“想得太多”。

对于复杂问题，这是好事，它能深思熟虑。但对于简单问题，这就有点浪费算力和时间了，费钱还慢。

AI配图

所以，他们搞了个新功能：Effort（努力程度）控制。

现在你可以手动调节它的“努力档位”：低、中、高（默认）、最大。

如果你发现它在一个简单任务上“发呆”，直接把档位调低就行。

这就很人性化。

而且，它还支持 Adaptive thinking（自适应思考）。

模型自己会根据上下文线索，判断什么时候该深度思考，什么时候该速战速决。

这就好比雇佣了一个绝顶聪明的员工，但他不仅智商高，还特别懂人情世故，知道什么时候该全力以赴，什么时候该摸鱼省电。

另外，API 层面还推出了 Agent teams（代理团队）。

你可以召唤一群 AI，像组团队一样让它们并行干活。Shift+Up/Down 就能直接接管任何一个子代理。

这画面感，简直就是指挥官在指挥一支机器人军队

参考链接：
https://www.anthropic.com/news/claude-opus-4-6