AI 考砸了：在顶级白领的试卷上，最强模型只拿了 24 分

两年前，微软 CEO 萨提亚·纳德拉画了一张大饼。

他说，AI 将取代知识工作。律师、投行家、图书管理员、会计师、IT 人员，这些坐在写字楼里的白领，饭碗岌岌可危。

AI配图

两年过去了。

基础模型突飞猛进，甚至学会了深度研究和代理规划。但看看你的办公室，什么都没发生。大家还在加班，还在改 PPT，还在为那些琐碎的决策焦头烂额。

这是 AI 界最大的谜团：**为什么号称无所不能的 AI，就是干不掉这些白领？**训练数据巨头 Mercor 的一份新研究，终于撕开了遮羞布。

他们搞了个新基准测试，叫 APEX-Agents。结果很残酷——目前所有的 AI 实验室，全部不及格。

面对真正的专业人士提问，哪怕是市面上最强的模型，正确率也没超过 25%。

绝大多数时候，它们要么瞎编，要么直接摆烂。

真正的难题，不是智商，是环境

Mercor 的 CEO Brendan Foody 参与了这项研究。他指出了一个关键点：AI 的绊脚石，不是不懂专业知识，而是找不到信息。人类的知识工作，从来不是在真空里进行的。

“这个基准测试的一个重大变化是，我们构建了整个环境，模拟了真正的专业服务，”Foody 告诉 TechCrunch。

现实世界的工作场景是什么样子的？

没有人会把所有背景资料整理好，放在一个对话框里等你提问。

你需要在这个软件里看一眼，在那个文档里翻一下，在 Slack 上确认一下，再去 Google Drive 里找找数据。

对于很多 AI 代理来说，这种跨域推理简直就是噩梦。要么找不到，要么连不上。## 律师都未必能答对的考题

为了测试，Mercor 从他们的专家市场上找来了真正的专业人士出题。

题目公开在 Hugging Face 上，随便看一眼就能感受到那种窒息的压迫感。

AI配图

比如“法律”板块里的一道题：

“在 EU 生产中断的前 48 分钟内，Northstar 的工程团队将包含个人数据的一个或两个捆绑 EU 生产事件日志导出到了美国分析供应商……根据 Northstar 自身的政策，它能否合理地将这一两次日志导出视为符合 Article 49？”正确答案是“是”。

但想得到这个答案，你得深入评估公司的内部政策，还得精通 EU 隐私法。

这可能会难倒一个见多识广的人类，但研究人员想模拟的，正是那些拿着高薪的专业人士。

如果 LLM 能可靠地回答这些问题，那现在很多律师确实可以失业了。

“我认为这可能是经济中最重要的议题，”Foody 说，“这个基准测试非常真实地反映了这些人的实际工作。”

OpenAI 之前也搞过 GDPval 基准测试，但那个测的是通用知识。APEX-Agents 不一样。它测的是在狭窄、高价值职业中执行持续任务的能力。

这难多了，但也更接近“自动化”这三个字的残酷真相。

结果呢？没有哪个模型准备好去当投资银行家。

Gemini 3 Flash 表现最好，一次准确率 24%。

紧随其后的是 GPT-5.2，23%。

再往后，Opus 4.5、Gemini 3 Pro 和 GPT-5 都在 18% 左右徘徊。这就是目前顶尖 AI 的真实战力。

看到这，是不是想长舒一口气？

别急。

AI 圈子有个传统：遇到难题，总是能迅速突破。现在 APEX-Agents 公开了，对于那些觉得自己能行的 AI 实验室来说，这就是一张战书。

AI配图

Foody 预计，几个月内情况就会大变。

“它改进得非常快，”他告诉 TechCrunch，“现在可以说，它就像一个实习生，有四分之一的时间是对的。但去年，它还是一个只能答对 5% 到 10% 的实习生。”

从 5% 到 25%，只用了一年。

这种年复一年的改进速度，一旦爆发，冲击力是惊人的。

白领们今晚或许还能睡个好觉，但那个正在隔壁工位上快速学习的“实习生”，已经越来越不像个笨蛋了。

参考链接：
https://techcrunch.com/2026/01/22/are-ai-agents-ready-for-the-workplace-a-new-benchmark-raises-doubts/