一场针对“人类最后考试”的突袭
“Humanity's Last Exam”(人类最后考试),光听这个名字就透着一股肃杀之气。
这是目前AI圈公认的“地狱级”基准测试,囊括了3000道谷歌搜不到答案的研究生级难题,覆盖数学、科学、人文全领域。
就在刚刚,这场考试交出了一份惊人的成绩单:Qwen3-Max-Thinking 拿到了 49.8 分。
这不仅仅是一个数字,这是一记响亮的耳光。它直接打在了 GPT-5.2-Thinking(45.8分)和 Gemini 3 Pro(45.5分)的脸上。
那个曾经被视作“高性价比平替”的中国模型,这一次带着它的“思考”能力,直接冲到了全球推理能力的金字塔尖。
不只是“大力出奇迹”,而是“会省脑子”
以前的AI模型怎么思考?简单粗暴,算力堆叠,生成100个答案挑一个最好的。
这叫“大力出奇迹”,但费钱、费电、费时。
Qwen3-Max-Thinking 这次玩了个不一样的。它搞出了一套名为 “Test-time scaling”(测试时扩展) 的架构,核心逻辑就一句话:用算力换智能,但绝不浪费一丁点算力。
它引入了一个叫“take-experience”的机制,模拟人类解题时的直觉。
遇到复杂问题,它不会一条路走到黑。它能识别死胡同,发现不对劲立刻回头;它能聚焦未解之谜,把算力全花在刀刃上,而不是重复推导已知结论。
这种“多轮自我反思”的策略,效果是立竿见影的。
在GPQA这个博士级别的科学基准上,分数直接从90.3飙到了92.8;在LiveCodeBench v6编程测试上,也从88.0跃升至91.4。
这哪里是模型,这简直像个会“复盘”的老练棋手。
手脑并用,拒绝“纸上谈兵”
光会想还不够,还得会干。
很多“思考”模型有个通病:数学题是神,上网查资料是虫。Qwen3-Max-Thinking 偏要打破这个次元壁。
它搞了个自适应工具使用。
这意味着它不需要你手把手教,自己就能根据情况在“思考模式”和“干活模式”之间丝滑切换:
- 要查实时新闻?它自动去 Web Search。
- 要记你的偏好?它自动调用 Memory。
- 要算复杂数据?它自己写 Python 代码跑。
最狠的是,这些工具可以在“Thinking Mode”下同时运行。
试想一下,你在问一个极其复杂的商业策略问题,它能一边上网查最新数据,一边跑代码算财务模型,最后再整合所有信息给出推理建议。
官方说得很直白:这种组合**“有效缓解了幻觉”**。毕竟,有理有据的瞎编,比纯瞎编要难多了。
数据不说谎,对手很尴尬
光说不练假把式,直接上硬菜。
在 HMMT Feb 25 这个严苛的推理基准上,Qwen3-Max-Thinking 拿下了 98.0 分,把 Gemini 3 Pro(97.5分)挤在身后,更是把 DeepSeek V3.2(92.5分)远远甩开。
而在编程领域,这种优势变成了碾压。
Arena-Hard v2 测试中,Qwen3-Max-Thinking 狂砍 90.2 分。看看它的对手:大名鼎鼎的 Claude-Opus-4.5 只有可怜的 76.7 分。
这已经不是追赶了,这是断层式领先。
价格屠夫入场,友商怎么接?
性能赢了,接下来就是最残酷的环节——谈钱。
阿里云这次摆明了是要“掀桌子”。Qwen3-Max-Thinking 的定价策略,简直就是冲着抢市场来的。
- 输入: $1.20 / 1M tokens
- 输出: $6.00 / 1M tokens
这价格意味着什么?我们来做个对比。
你用 GPT-5.2,处理同样多的内容,要花 $15.75;你用顶配的 GPT-5.2 Pro,价格更是高达 $189.00。
哪怕是 Claude Sonnet 4.5,也要 $18.00。
而 Qwen3-Max-Thinking 只要 $7.20。
不到 GPT-5.2 零头的一半,不到 Pro 版的 4%。
更绝的是,它把“思考”和“干活”的钱分开了。虽然 Agent Search 和 Web Search 这种高级功能要额外收 $10 每 1000 次调用,但阿里云现在搞了个限时免费:
Web Extractor 免费,Code Interpreter 也免费。
这就好比卖给你一辆法拉利,不仅打折,还送你一年的油费。
无缝切换,开发者福音
对于开发者来说,最头疼的莫过于迁移成本。
Qwen 团队显然深谙此道,他们做了一个极其聪明的决定:全面兼容。
你不用重写代码,不用改架构。只要改一下 base_url 和 model 名字,原本跑在 OpenAI 接口上的代码,直接就能跑 Qwen。
为了抢夺程序员这个挑剔的群体,它甚至兼容了 Anthropic 的协议。
这意味着什么?意味着你可以直接在流行的 Claude Code 环境里使用 Qwen3-Max-Thinking。
这哪里是发布模型,这简直是给对手的用户发“移民签证”。
写在最后
2026年的AI市场,早已不是“谁聊天更溜”的时代了。
现在的战争,是关于谁能构建出最强大的“智能体”(Agent)。
Qwen3-Max-Thinking 的出现,标志着中国AI模型从“开源平替”正式进化为“顶级掠食者”。它用高效的推理架构、强悍的工具调用能力和极具侵略性的定价,把球踢到了大洋彼岸。
虽然因为地缘政治因素,一些美国大厂可能还会犹豫,但对于全球开发者和中小企业来说,这道选择题其实并不难做。
当更聪明、更便宜、更好用的工具摆在面前,谁会愿意多花几十倍的钱去买个“牌子”呢?
参考链接:
https://venturebeat.com/technology/qwen3-max-thinking-beats-gemini-3-pro-and-gpt-5-2-on-humanitys-last-exam