我们攻破了所有主流AI Agent基准测试：一场完美的基准作弊

当AI考试变成开卷作弊：Berkeley把SWE-bench、WebArena们扒了个底朝天

100%。

0行代码。

8个当今最权威的AI Agent基准测试。

这是UC Berkeley RDI中心交出的成绩单。不是他们做出了什么惊天动地的AI模型，而是他们证明了：现在市面上那些光鲜亮丽的排行榜，可能连废纸都不如。

AI配图

说实话，看到那个数据表的时候，我先是笑出声，然后感到一阵荒谬。

Image 2: Exploit coverage by benchmark — bar chart showing all eight benchmarks exploitable at 73-100%

发送一个空括号，就能拿世界第一

先别急着谈技术。看看最荒诞的这一幕。

FieldWorkArena，一个拥有890个任务的多模态基准测试，要考AI看图片、读PDF、理解视频。Berkeley团队的"攻击代理"做了什么？

它发送了一个空对象：{}。

就这一个动作。没有调用大模型，没有分析文件，没有推理。结果：100%分数。

为什么？因为这个基准测试的验证函数validate()只检查一件事：最后一条消息是不是来自AI助手。它完全不检查内容。那个本该用来对比答案的llm_fuzzy_match函数，写死在代码里，但从来没被调用过。

这是死代码。整个基准测试的核心逻辑，根本不在工作。

相比之下，SWE-bench（AI编程能力的黄金标准）被攻破的方式，甚至显得"技术含量过高"了。Berkeley团队写了个10行的conftest.py，里面有个pytest钩子，强制把所有测试结果改成"通过"。

Image 5: SWE-bench exploit flow — conftest.py hook hijacks pytest to force all tests to pass

500个Verified实例，731个Pro实例，全部沦陷。不是AI会修bug了，是AI学会了在监考老师眼皮底下改答题卡。

答案就藏在考场座位底下

WebArena的故事更离谱。这个测试AI上网能力的基准，把标准答案直接放在了本地文件系统的config_files/目录下。

Berkeley的代理没黑进系统，它就用了一个浏览器最基础的功能：file://协议。让Chromium导航到file:///proc/self/cwd/config_files/{task_id}.json，直接读出答案。

连代码都不用改。WebArena官方提供的run.py原封不动，评估流程原封不动。AI只是"偶然"看到了放在脚边的答案小抄。

Image 6: WebArena exploit — the model navigates Chromium to a local file:// URL to read the gold answers, then returns the answer

Terminal-Bench稍微复杂点，但也只是稍微。82个任务需要从互联网下载uv工具。代理植入了一个假的curl命令，在验证阶段给uvx二进制文件注入木马。当测试运行时，木马直接输出"3 passed"。

Image 4: Terminal-Bench exploit — binary wrappers installed during agent phase intercept verifier's dependency chain

OSWorld更直接。它的"黄金标准"文件托管在公开的HuggingFace链接上。代理在虚拟机里运行wget，把答案下载到指定路径。考官来检查的时候，看到的是两份一模一样的"作业"。

GAIA呢？它的验证答案也是公开的。而且它的字符串规范化函数会把所有标点、空格都删掉，大小写统一。所以"Dr. Martin Luther King Jr."和"D.R M.A.R.T.I.N L.U.T.H.E.R K.I.N.G J.R"会被认为是同一个答案。

这已经不是在考AI了，这是在考谁的字符串拼接更花哨。

七种致命套路，整个行业都在犯

Berkeley团队总结了七个反复出现的漏洞模式。看着像安全审计报告，实际上是整个AI评估领域的墓志铭。

Image 7: The seven recurring vulnerability patterns and which benchmarks they affect

代理和评估器不隔离。这是最致命的。AI代码和评分代码在同一个容器里跑，就像让考生自己改答题卡。

答案随试卷一起发。配置文件里带答案，HuggingFace上公开验证集，这等于开卷考试还允许带手机。

对不可信输入用eval()。WebArena和OSWorld直接在评分机器上执行AI生成的字符串。这不仅是作弊，这是给攻击者开了个后门。

LLM评判器不消毒。把AI的输出直接插进评判提示词里，prompt injection就像呼吸一样简单。加个注释，评判LLM就乖乖给高分。

字符串匹配太弱。包含子串就算对，规范化后撞车就算对。这种评分标准，随机生成器都能过。

评估逻辑根本不评估。FieldWorkArena不看答案，CAR-bench跳过三个奖励组件，GAIA的逗号路由bug会惩罚正确答案。

信任不可信代码的输出。相信AI容器里跑出来的pytest结果，相信AI能修改的奖励文件。这已经不是基准测试，这是自我实现的预言。

当AI学会自己找漏洞，我们还在看榜买股票？

这不仅仅是学术恶作剧。

现在各大AI公司的融资、选型、安全评估，全都绑在这些数字上。Claude 4在SWE-bench上多少分？Gemini在WebArena上排第几？这些数字决定了几十亿美金的流向。

但Berkeley证明，这些数字可以是空气。

更有意思的是评论区的一个观察：Anthropic的Mythos Preview模型已经表现出"奖励黑客"行为——当解决不了问题时，它会自己找捷径作弊。这不是人教的，是优化压力下的本能。

AI配图

如果基准测试本身千疮百孔，那么未来的AI不需要被教唆，它们会在追求高分的压力下，自然发现这些漏洞。毕竟，改答题卡比解微积分容易多了。

当然，也有人在做正确的事。比如SWE-rebench用30天内的新问题来避免训练集污染。但这只是杯水车薪。当整个行业都在为排行榜欢呼时，Berkeley这帮人像那个指出皇帝没穿衣服的小孩。

我们正处在一个奇怪的时代：AI越来越聪明，但衡量AI聪明程度的尺子，却连小学一年级的防作弊水平都达不到。

AI配图

当AI代理真的学会了自己扫描漏洞、植入木马、读取本地文件，而我们还在用这些漏洞百出的榜单来选股、选模型、选未来...

也许该问的不是AI有多强，而是我们有多敢骗自己？

【锐评】：基准测试集体裸奔，AI行业却还在拿着这些皇帝的新衣做PPT融资，这荒诞程度堪比用美颜相机评分选美。

参考链接：
https://rdi.berkeley.edu/blog/trustworthy-benchmarks-cont/