通杀GPT-5.2和Gemini 3 Pro？阿里云Qwen3这次真的杀疯了

一场针对“人类最后考试”的突袭

“Humanity's Last Exam”（人类最后考试），光听这个名字就透着一股肃杀之气。

这是目前AI圈公认的“地狱级”基准测试，囊括了3000道谷歌搜不到答案的研究生级难题，覆盖数学、科学、人文全领域。

就在刚刚，这场考试交出了一份惊人的成绩单：Qwen3-Max-Thinking 拿到了 49.8 分。

这不仅仅是一个数字，这是一记响亮的耳光。它直接打在了 GPT-5.2-Thinking（45.8分）和 Gemini 3 Pro（45.5分）的脸上。

那个曾经被视作“高性价比平替”的中国模型，这一次带着它的“思考”能力，直接冲到了全球推理能力的金字塔尖。

不只是“大力出奇迹”，而是“会省脑子”

以前的AI模型怎么思考？简单粗暴，算力堆叠，生成100个答案挑一个最好的。

这叫“大力出奇迹”，但费钱、费电、费时。

Qwen3-Max-Thinking 这次玩了个不一样的。它搞出了一套名为 “Test-time scaling”（测试时扩展） 的架构，核心逻辑就一句话：用算力换智能，但绝不浪费一丁点算力。

它引入了一个叫“take-experience”的机制，模拟人类解题时的直觉。

遇到复杂问题，它不会一条路走到黑。它能识别死胡同，发现不对劲立刻回头；它能聚焦未解之谜，把算力全花在刀刃上，而不是重复推导已知结论。

这种“多轮自我反思”的策略，效果是立竿见影的。

在GPQA这个博士级别的科学基准上，分数直接从90.3飙到了92.8；在LiveCodeBench v6编程测试上，也从88.0跃升至91.4。

这哪里是模型，这简直像个会“复盘”的老练棋手。

AI配图

手脑并用，拒绝“纸上谈兵”

光会想还不够，还得会干。

很多“思考”模型有个通病：数学题是神，上网查资料是虫。Qwen3-Max-Thinking 偏要打破这个次元壁。

它搞了个自适应工具使用。

这意味着它不需要你手把手教，自己就能根据情况在“思考模式”和“干活模式”之间丝滑切换：

要查实时新闻？它自动去 Web Search。
要记你的偏好？它自动调用 Memory。
要算复杂数据？它自己写 Python 代码跑。

最狠的是，这些工具可以在“Thinking Mode”下同时运行。

试想一下，你在问一个极其复杂的商业策略问题，它能一边上网查最新数据，一边跑代码算财务模型，最后再整合所有信息给出推理建议。

官方说得很直白：这种组合**“有效缓解了幻觉”**。毕竟，有理有据的瞎编，比纯瞎编要难多了。

数据不说谎，对手很尴尬

光说不练假把式，直接上硬菜。

在 HMMT Feb 25 这个严苛的推理基准上，Qwen3-Max-Thinking 拿下了 98.0 分，把 Gemini 3 Pro（97.5分）挤在身后，更是把 DeepSeek V3.2（92.5分）远远甩开。

而在编程领域，这种优势变成了碾压。

Arena-Hard v2 测试中，Qwen3-Max-Thinking 狂砍 90.2 分。看看它的对手：大名鼎鼎的 Claude-Opus-4.5 只有可怜的 76.7 分。

这已经不是追赶了，这是断层式领先。

价格屠夫入场，友商怎么接？

性能赢了，接下来就是最残酷的环节——谈钱。

阿里云这次摆明了是要“掀桌子”。Qwen3-Max-Thinking 的定价策略，简直就是冲着抢市场来的。

输入： $1.20 / 1M tokens
输出： $6.00 / 1M tokens

这价格意味着什么？我们来做个对比。

你用 GPT-5.2，处理同样多的内容，要花 $15.75；你用顶配的 GPT-5.2 Pro，价格更是高达 $189.00。

哪怕是 Claude Sonnet 4.5，也要 $18.00。

而 Qwen3-Max-Thinking 只要 $7.20。

不到 GPT-5.2 零头的一半，不到 Pro 版的 4%。

更绝的是，它把“思考”和“干活”的钱分开了。虽然 Agent Search 和 Web Search 这种高级功能要额外收 $10 每 1000 次调用，但阿里云现在搞了个限时免费：

Web Extractor 免费，Code Interpreter 也免费。

这就好比卖给你一辆法拉利，不仅打折，还送你一年的油费。

AI配图

无缝切换，开发者福音

对于开发者来说，最头疼的莫过于迁移成本。

Qwen 团队显然深谙此道，他们做了一个极其聪明的决定：全面兼容。

你不用重写代码，不用改架构。只要改一下 base_url 和 model 名字，原本跑在 OpenAI 接口上的代码，直接就能跑 Qwen。

为了抢夺程序员这个挑剔的群体，它甚至兼容了 Anthropic 的协议。

这意味着什么？意味着你可以直接在流行的 Claude Code 环境里使用 Qwen3-Max-Thinking。

这哪里是发布模型，这简直是给对手的用户发“移民签证”。

写在最后

2026年的AI市场，早已不是“谁聊天更溜”的时代了。

现在的战争，是关于谁能构建出最强大的“智能体”（Agent）。

Qwen3-Max-Thinking 的出现，标志着中国AI模型从“开源平替”正式进化为“顶级掠食者”。它用高效的推理架构、强悍的工具调用能力和极具侵略性的定价，把球踢到了大洋彼岸。

虽然因为地缘政治因素，一些美国大厂可能还会犹豫，但对于全球开发者和中小企业来说，这道选择题其实并不难做。

当更聪明、更便宜、更好用的工具摆在面前，谁会愿意多花几十倍的钱去买个“牌子”呢？

参考链接：
https://venturebeat.com/technology/qwen3-max-thinking-beats-gemini-3-pro-and-gpt-5-2-on-humanitys-last-exam