两年前,微软 CEO 萨提亚·纳德拉画了一张大饼。
他说,AI 将取代知识工作。律师、投行家、图书管理员、会计师、IT 人员,这些坐在写字楼里的白领,饭碗岌岌可危。
两年过去了。
基础模型突飞猛进,甚至学会了深度研究和代理规划。但看看你的办公室,什么都没发生。大家还在加班,还在改 PPT,还在为那些琐碎的决策焦头烂额。
这是 AI 界最大的谜团:**为什么号称无所不能的 AI,就是干不掉这些白领?**训练数据巨头 Mercor 的一份新研究,终于撕开了遮羞布。
他们搞了个新基准测试,叫 APEX-Agents。结果很残酷——目前所有的 AI 实验室,全部不及格。
面对真正的专业人士提问,哪怕是市面上最强的模型,正确率也没超过 25%。
绝大多数时候,它们要么瞎编,要么直接摆烂。
真正的难题,不是智商,是环境
Mercor 的 CEO Brendan Foody 参与了这项研究。他指出了一个关键点:AI 的绊脚石,不是不懂专业知识,而是找不到信息。人类的知识工作,从来不是在真空里进行的。
“这个基准测试的一个重大变化是,我们构建了整个环境,模拟了真正的专业服务,”Foody 告诉 TechCrunch。
现实世界的工作场景是什么样子的?
没有人会把所有背景资料整理好,放在一个对话框里等你提问。
你需要在这个软件里看一眼,在那个文档里翻一下,在 Slack 上确认一下,再去 Google Drive 里找找数据。
对于很多 AI 代理来说,这种跨域推理简直就是噩梦。要么找不到,要么连不上。## 律师都未必能答对的考题
为了测试,Mercor 从他们的专家市场上找来了真正的专业人士出题。
题目公开在 Hugging Face 上,随便看一眼就能感受到那种窒息的压迫感。
比如“法律”板块里的一道题:
“在 EU 生产中断的前 48 分钟内,Northstar 的工程团队将包含个人数据的一个或两个捆绑 EU 生产事件日志导出到了美国分析供应商……根据 Northstar 自身的政策,它能否合理地将这一两次日志导出视为符合 Article 49?”正确答案是“是”。
但想得到这个答案,你得深入评估公司的内部政策,还得精通 EU 隐私法。
这可能会难倒一个见多识广的人类,但研究人员想模拟的,正是那些拿着高薪的专业人士。
如果 LLM 能可靠地回答这些问题,那现在很多律师确实可以失业了。
“我认为这可能是经济中最重要的议题,”Foody 说,“这个基准测试非常真实地反映了这些人的实际工作。”
惨烈的排行榜:谁在裸泳?
OpenAI 之前也搞过 GDPval 基准测试,但那个测的是通用知识。APEX-Agents 不一样。它测的是在狭窄、高价值职业中执行持续任务的能力。
这难多了,但也更接近“自动化”这三个字的残酷真相。
结果呢?没有哪个模型准备好去当投资银行家。
Gemini 3 Flash 表现最好,一次准确率 24%。
紧随其后的是 GPT-5.2,23%。
再往后,Opus 4.5、Gemini 3 Pro 和 GPT-5 都在 18% 左右徘徊。这就是目前顶尖 AI 的真实战力。
别急着庆祝,那个“实习生”进化太快了
看到这,是不是想长舒一口气?
别急。
AI 圈子有个传统:遇到难题,总是能迅速突破。现在 APEX-Agents 公开了,对于那些觉得自己能行的 AI 实验室来说,这就是一张战书。
Foody 预计,几个月内情况就会大变。
“它改进得非常快,”他告诉 TechCrunch,“现在可以说,它就像一个实习生,有四分之一的时间是对的。但去年,它还是一个只能答对 5% 到 10% 的实习生。”
从 5% 到 25%,只用了一年。
这种年复一年的改进速度,一旦爆发,冲击力是惊人的。
白领们今晚或许还能睡个好觉,但那个正在隔壁工位上快速学习的“实习生”,已经越来越不像个笨蛋了。
参考链接:
https://techcrunch.com/2026/01/22/are-ai-agents-ready-for-the-workplace-a-new-benchmark-raises-doubts/