59%。
这是一个让所有“大模型迷信者”都要停下来想一想的数据。
在最新的盲测中,开发者们竟然更偏爱 Claude Sonnet 4.6,而不是 Anthropic 之前那个号称“最聪明”的顶梁柱——Claude Opus 4.5。
更绝的是,这俩价格还一样。
Anthropic 刚刚甩出了他们的新一代模型 Sonnet 4.6。这不仅仅是一次常规升级,简直有点“以下犯上”的意思:它用中杯的价格,在很多任务上给出了大杯,甚至超大杯的表现。
这多少有点“田忌赛马”的感觉。
别被名字骗了
如果你只看版本号,可能会觉得 Sonnet 4.6 只是个小步快跑的迭代。
但在 Claude Code 的早期测试里,用户在 70% 的情况下更喜欢 Sonnet 4.6,而不是它的前辈 4.5。大家给的评价很实在:这模型不那么“懒”了,也不爱搞那些虚头巴脑的“过度设计”。
最关键的是,它听劝。
以前你跟 AI 说半天,它非要按自己的那一套复杂的逻辑来;现在它能老老实实照着指令做,少了很多“自作聪明”。
甚至,在面对 Opus 4.5 这种老大哥时,Sonnet 4.6 在 59% 的测试中也能赢。
这意味意味着以前那些非得动用昂贵大模型才能解决的现实办公任务,现在用便宜的小模型就能搞定了。
不再只会动嘴
这次升级最让我在意的,不是它代码写得多溜,而是它也学会了用电脑。
以前的小模型只能通过 API 接口“说话”,如果你想让它操作那些老旧的、没有接口的企业软件,你得专门给它写个连接器,费时费力。
现在的 Sonnet 4.6,像人一样看屏幕,用(虚拟的)鼠标点击,用(虚拟的)键盘打字。
看这张图,过去 16 个月,Sonnet 在 OSWorld 基准测试上的进步曲线简直是坐火箭。
OSWorld 测试中,AI 需要在模拟的 Chrome、LibreOffice、VS Code 里真刀真枪地干活。没有 API,没有后门,全靠“看屏幕”和“点鼠标”。
早期的测试用户发现,Sonnet 4.6 在处理复杂表格、填多步骤网页表单,甚至跨浏览器标签页整合信息时,已经表现出了人类级别的能力。
这点我觉得特别重要。这意味着对于那些被“数字化遗忘”的老旧系统,AI 现在可以直接上手干活了,不用企业再花大钱去重构接口。
甚至学会了做生意
有意思的是,Anthropic 还讲了一个关于“做生意”的故事。
在一个叫 Vending-Bench Arena 的测试里,AI 模型们互相竞争,看谁能把模拟的自动售货机生意做得利润最大。
Sonnet 4.6 玩了一手漂亮的策略:前 10 个月疯狂砸钱投资产能,不管利润;然后在最后阶段突然急刹车,全力收割利润。
这种“先投入后产出”的长远规划能力,说实话,比很多只会算死账的 AI 要聪明得多。它赢了,且赢得很有章法。
从这张综合能力表也能看出来,Sonnet 4.6 已经在很多指标上逼近了 Opus 级别的智能,但价格却依然维持在 Sonnet 4.5 的水平:3 美元每百万输入 Token,15 美元每百万输出 Token。
这性价比,支持大家卷起来。
大厂们已经用脚投票
除了官方自吹自擂,外部客户的反馈可能更真实。
Databricks 的人说,Sonnet 4.6 在处理企业文档、图表、PDF 时,已经能和 Opus 4.6 打平了。
Claude Sonnet 4.6 matches Opus 4.6 performance on OfficeQA... It’s a meaningful upgrade for document comprehension workloads.
Replit 说得更直接,这东西的性价比高到难以置信。
The performance-to-cost ratio of Claude Sonnet 4.6 is extraordinary... Sonnet 4.6 outperforms on our orchestration evals...
参考链接:
https://www.anthropic.com/news/claude-sonnet-4-6