两年前,微软 CEO 萨提亚·纳德拉画了一张大饼。

他说,AI 将取代知识工作。律师、投行家、图书管理员、会计师、IT 人员,这些坐在写字楼里的白领,饭碗岌岌可危。

AI配图

两年过去了。

基础模型突飞猛进,甚至学会了深度研究和代理规划。但看看你的办公室,什么都没发生。大家还在加班,还在改 PPT,还在为那些琐碎的决策焦头烂额。

这是 AI 界最大的谜团:**为什么号称无所不能的 AI,就是干不掉这些白领?**训练数据巨头 Mercor 的一份新研究,终于撕开了遮羞布。

他们搞了个新基准测试,叫 APEX-Agents。结果很残酷——目前所有的 AI 实验室,全部不及格。

面对真正的专业人士提问,哪怕是市面上最强的模型,正确率也没超过 25%。

绝大多数时候,它们要么瞎编,要么直接摆烂。

真正的难题,不是智商,是环境

Mercor 的 CEO Brendan Foody 参与了这项研究。他指出了一个关键点:AI 的绊脚石,不是不懂专业知识,而是找不到信息。人类的知识工作,从来不是在真空里进行的。

“这个基准测试的一个重大变化是,我们构建了整个环境,模拟了真正的专业服务,”Foody 告诉 TechCrunch。

现实世界的工作场景是什么样子的?

没有人会把所有背景资料整理好,放在一个对话框里等你提问。

你需要在这个软件里看一眼,在那个文档里翻一下,在 Slack 上确认一下,再去 Google Drive 里找找数据。

对于很多 AI 代理来说,这种跨域推理简直就是噩梦。要么找不到,要么连不上。## 律师都未必能答对的考题

为了测试,Mercor 从他们的专家市场上找来了真正的专业人士出题。

题目公开在 Hugging Face 上,随便看一眼就能感受到那种窒息的压迫感。

AI配图

比如“法律”板块里的一道题:

“在 EU 生产中断的前 48 分钟内,Northstar 的工程团队将包含个人数据的一个或两个捆绑 EU 生产事件日志导出到了美国分析供应商……根据 Northstar 自身的政策,它能否合理地将这一两次日志导出视为符合 Article 49?”正确答案是“是”。

但想得到这个答案,你得深入评估公司的内部政策,还得精通 EU 隐私法。

这可能会难倒一个见多识广的人类,但研究人员想模拟的,正是那些拿着高薪的专业人士。

如果 LLM 能可靠地回答这些问题,那现在很多律师确实可以失业了。

“我认为这可能是经济中最重要的议题,”Foody 说,“这个基准测试非常真实地反映了这些人的实际工作。”

惨烈的排行榜:谁在裸泳?

OpenAI 之前也搞过 GDPval 基准测试,但那个测的是通用知识。APEX-Agents 不一样。它测的是在狭窄、高价值职业中执行持续任务的能力。

这难多了,但也更接近“自动化”这三个字的残酷真相。

结果呢?没有哪个模型准备好去当投资银行家。

Gemini 3 Flash 表现最好,一次准确率 24%

紧随其后的是 GPT-5.223%

再往后,Opus 4.5Gemini 3 ProGPT-5 都在 18% 左右徘徊。这就是目前顶尖 AI 的真实战力。

别急着庆祝,那个“实习生”进化太快了

看到这,是不是想长舒一口气?

别急。

AI 圈子有个传统:遇到难题,总是能迅速突破。现在 APEX-Agents 公开了,对于那些觉得自己能行的 AI 实验室来说,这就是一张战书。

AI配图

Foody 预计,几个月内情况就会大变。

“它改进得非常快,”他告诉 TechCrunch,“现在可以说,它就像一个实习生,有四分之一的时间是对的。但去年,它还是一个只能答对 5% 到 10% 的实习生。”

从 5% 到 25%,只用了一年。

这种年复一年的改进速度,一旦爆发,冲击力是惊人的。

白领们今晚或许还能睡个好觉,但那个正在隔壁工位上快速学习的“实习生”,已经越来越不像个笨蛋了。

参考链接:
https://techcrunch.com/2026/01/22/are-ai-agents-ready-for-the-workplace-a-new-benchmark-raises-doubts/