说实话,这事儿稍微有点尴尬。

就在刚刚,OpenAI 突然发难,直接宣布:停止使用 SWE-bench Verified 作为前沿模型的评估标准。

理由很直白,也很扎心——这个被全行业奉为圭臬、用来衡量 AI 程序员能力的“金标准”,现在不仅题目出得烂,而且大概率已经漏题了

这不仅仅是换个考试题那么简单,这相当于高考考到一半,监考老师突然发现有一半的卷子印刷错误,而且不少学霸其实早就背过答案了。

那个曾经的神坛,现在有点摇摇欲坠

倒退回两年前,SWE-bench 的出现简直是救世主。

那时候大家都在吹自家模型代码能力强,到底强不强谁也不知道。SWE-bench Verified 横空出世,专门找真实的 GitHub Issue 让模型去修,修好了才算过。

这标准一用就是两年,成了行业硬通货。你要是发布个新模型,不报个 SWE-bench Verified 的分数,都不好意思开发布会。

但问题来了。

最近半年,这分数涨不动了。

AI配图

从 74.9% 涨到 80.9%,看起来还在进步,但 OpenAI 心里发虚:这剩下的 20% 真的是模型不行吗?还是这卷子本身就有问题?

于是他们搞了一次审计,结果不查不知道,一查吓一跳。

题目出得有多离谱?连人都做不对

OpenAI 挑了 138 道那些顶尖模型死活做不对的“难题”,找了至少 6 个资深工程师去复核。

结果让人大跌眼镜:59.4% 的题目本身就有严重缺陷。

要么是“太窄”,要么是“太宽”。

举个例子,有道题让你修个 bug,你修好了,功能完全正常。但测试脚本非要检查你是不是定义了一个叫 get_annotation 的函数。题目里没这要求啊?不好意思,测试脚本里写了,你没写就是错。

这就好比考数学题,你算出答案是 4,老师给你零分,因为你没按他心里想的那样用“减法”去算,而是用了“加法”。

还有更离谱的“太宽”测试。

题目描述只让你解决问题 A,结果测试脚本不仅测 A,还顺带测了问题 B 和 C。模型看着题目一脸懵逼:你也没让我修 B 和 C 啊?

AI配图

OpenAI 在报告里也很无奈:这些问题极其困难,甚至不可能解决,哪怕是对于最强大的模型或人类来说。

所以,那些模型没拿到的分,可能根本不是能力问题,纯粹是考官心情不好。

更劲爆的来了:全员“作弊”?

如果说题目出得烂只是能力问题,那“漏题”就是性质问题了。

这也是这次 OpenAI 最想说的点:SWE-bench Verified 的题目,全来自开源 GitHub 仓库。

这意味着什么?意味着这些代码、Issue、解决方案,早就躺在互联网上了。而现在的顶尖大模型,哪个不是把互联网上的代码扫了个遍?

这就是典型的“把考题和答案发给了学生”。

OpenAI 搞了个“红队测试”,让 GPT-5 去套话,看看其他模型是不是“背答案”。

结果极其讽刺。

他们测试了 GPT-5.2、Claude Opus 4.5 和 Gemini 3 Flash。

只要稍微给点提示,甚至只给个任务 ID,这些模型就能把那个“金标准”补丁给背出来。注意,是逐字逐句地背出来。

比如 GPT-5.2,看到题目描述的一小段,直接输出了精准的修复代码,连那个 if username is None or password is None 的特定判断条件都一模一样。

Claude Opus 4.5 更神,不仅能背出代码,连代码里的注释都能复述出来。

Gemini 3 Flash 也是一样,给个 ID 就能把行号和正则公式吐给你。

OpenAI 的结论很冷酷:所有前沿模型都看过这些题。

这就解释了为什么分数涨不动了——因为大家都在比拼记忆力,而不是比拼推理能力。那些见过题目的模型,因为知道额外的上下文,反而更容易通过那些描述不清的测试。

这考试,已经失去了意义。

网友辣评:是不是因为对手追上来了?

OpenAI 这一招“弃用”,在圈子里引起了不小的震动。

有人阴谋论:是不是因为 Claude 4.6 和 Gemini 3.1 在 Verified 上追得太紧了,OpenAI 才突然想换卷子?

这评论虽然诛心,但也并非全无道理。毕竟,谁都不想在一个已经“污染”的池子里继续卷分数。

还有人说得更直白:

“翻译一下:大家都把测试集拿去训练了。AI 评估这场猫鼠游戏,还在继续。”

确实,这就是个死循环。只要是公开的数据集,最终都会变成训练数据。一旦变成训练数据,它作为测试集的生命周期就结束了。

OpenAI 这次也算是承认了行业的无奈,建议大家转去用 SWE-bench Pro

虽然 Pro 也是公开的,但 OpenAI 测了一下,发现污染情况稍微好点,至少模型还没法完整背诵金标准补丁。

但这也只是权宜之计。

AI配图

我们到底该信什么?

老实讲,看到这篇报告的时候,我反而有点释然。

之前看着各家模型代码分数蹭蹭涨,动不动就这第一那超越的,总觉得哪里不对劲。现在看来,这种“虚胖”的繁荣背后,确实藏着不少水分。

OpenAI 这次算是捅破了窗户纸:公开基准测试,正在走向死亡。

未来的评估,注定会变得更加私密、更加昂贵,甚至更加主观。OpenAI 提到的 GDPVal,就是找专家私下出题、人工阅卷。

这听起来像是某种倒退——从自动化倒退回了人工。但在模型越来越聪明的今天,或许只有这种“笨办法”,才能让我们看清谁在裸泳。

只是,下次再看到谁家模型刷榜 SWE-bench 的时候,你大可以微微一笑:

这题,他们可能早就做过原题了。

参考链接:
https://x.com/OpenAIDevs/status/2026002219909427270