大模型的天,又要变了。
就在刚刚,Anthropic 直接甩出了王炸——Claude Opus 4.6。
说实话,看到数据的时候我稍微愣了一下。在名为 GDPval-AA 的评估里,这个新模型直接把行业里的“老二”——OpenAI 的 GPT-5.2,甩开了整整 144 Elo 分。
这是什么概念?
换算成胜率,Opus 4.6 在处理高价值知识工作时,击败 GPT-5.2 的概率高达 70%。至于它的上一代 Opus 4.5,更是被拉开了 190 分的差距。
这哪里是升级,简直就是降维打击。
而且,这次 Anthropic 玩真的了。Opus 系列第一次迎来了 100万 token 的上下文窗口。
这就意味着,你丢给它几本长篇小说、甚至整个公司的代码库,它都能一口气读完,还能记住细节。
更狠的是,价格没涨。
还是 $5/$25 每百万 tokens。
这架势,摆明了是不给对手留活路。
编程不再是写代码,而是“管人”
现在的 AI,已经不满足于陪你聊天了。
Opus 4.6 这次最核心的进化,其实是“Agent(智能体)”能力的质变。
简单说,它以前是个“高级实习生”,你得手把手教它怎么干;现在它像个“高级项目经理”,你给个目标,它自己拆解任务,自己干,甚至还能自己查错。
Notion 的评价很直接:它感觉不像个工具,更像个“有能力的合作者”。
这点我深有同感。以前用 AI 写代码,最怕中间报错,一旦断掉,前功尽弃。Opus 4.6 现在能在大型代码库里长时间保持“在线”状态,规划更缜密,还能自己 review 代码找出 bug。
看看这些大佬们的反馈,全是溢美之词:
Replit 说,它在规划上有巨大飞跃,能把复杂任务拆成独立的子任务,并行跑工具,精准识别阻碍。
做 Devin 的 Cognition 甚至说,它能考虑到其他模型忽略的边缘情况,抓 Bug 的率明显提升了。
更有意思的是 Rakuten 的案例,这简直有点“恐怖”:
它一天之内自主关闭了 13 个 issue,把 12 个 issue 分配给了正确的团队成员。管理了一个 50 人的组织,横跨 6 个代码仓库。它甚至知道什么时候该把问题“升级”给人类。
老实讲,这已经不是写代码了,这是在管理团队。
100万上下文,治好了 AI 的“健忘症”
“上下文腐烂”,这是大模型圈的一个老毛病。
聊得多了,AI 就忘了开头你说啥。尤其是处理海量文档时,它经常顾头不顾尾。
Opus 4.6 这次拿出了杀手锏:100万 token 上下文。
为了证明这不是吹牛,有人拿它做了个“哈利波特测试”。
在热门评论里,有位开发者把《哈利波特》前 4 本书(约 73.3 万 token)丢给了 Opus 4.6,让它找里面所有的咒语。
结果呢?
官方文档里记录的 50 个咒语,它找出了 49 个。
唯一漏掉的是一个生僻的“呕吐咒”。
这在以前是不可想象的。
数据不会撒谎。在一个叫 MRCR v2 的“大海捞针”测试里,Opus 4.6 拿到了 76% 的分数,而上一代 Sonnet 4.5 只有 18.5%。
这就是质的飞跃。
Thomson Reuters 也证实了这一点:
他们看到 Opus 4.6 在处理更大量级的信息时,一致性极强,这让构建复杂的研究工作流成为了可能。
以前我们说 AI 有“记忆”,更多是个比喻。现在,它是真的能“记住”你扔给它的所有东西了。
办公室里的“超人”,Excel 和 PPT 都能搞
别以为 Opus 4.6 只是程序员的玩具。
Anthropic 这次在办公软件上也下了重注。
Claude in Excel 做了实质性升级,不仅能处理长任务,还能在没人指导的情况下,自己推断数据结构。甚至,它还能多步修改,一次性搞定。
Shopify 的人说,它甚至能创造出一些他没想到的细节。感觉不是在等它干活,而是跟它一起干活。
更绝的是,Claude 现在能进 PowerPoint 了。
它能读懂你的排版、字体、母版,保证生成的 PPT 符合你的品牌调性。你在 Excel 里理完数据,直接丢给它,它就能生成一套完整的演示文稿。
Harvey 的测试显示,在法律推理的 BigLaw Bench 上,Opus 4.6 拿到了 90.2% 的分数,其中 40% 是满分。
这对于金融、法律这些高门槛行业来说,简直就是个“外挂”。
真正的杀手锏,是学会了“偷懒”
有个很有意思的细节。
Anthropic 在介绍里提到,Opus 4.6 经常“想得太多”。
对于复杂问题,这是好事,它能深思熟虑。但对于简单问题,这就有点浪费算力和时间了,费钱还慢。
所以,他们搞了个新功能:Effort(努力程度)控制。
现在你可以手动调节它的“努力档位”:低、中、高(默认)、最大。
如果你发现它在一个简单任务上“发呆”,直接把档位调低就行。
这就很人性化。
而且,它还支持 Adaptive thinking(自适应思考)。
模型自己会根据上下文线索,判断什么时候该深度思考,什么时候该速战速决。
这就好比雇佣了一个绝顶聪明的员工,但他不仅智商高,还特别懂人情世故,知道什么时候该全力以赴,什么时候该摸鱼省电。
另外,API 层面还推出了 Agent teams(代理团队)。
你可以召唤一群 AI,像组团队一样让它们并行干活。Shift+Up/Down 就能直接接管任何一个子代理。
这画面感,简直就是指挥官在指挥一支机器人军队
参考链接:
https://www.anthropic.com/news/claude-opus-4-6