说实话,这事儿稍微有点尴尬。
就在刚刚,OpenAI 突然发难,直接宣布:停止使用 SWE-bench Verified 作为前沿模型的评估标准。
理由很直白,也很扎心——这个被全行业奉为圭臬、用来衡量 AI 程序员能力的“金标准”,现在不仅题目出得烂,而且大概率已经漏题了。
这不仅仅是换个考试题那么简单,这相当于高考考到一半,监考老师突然发现有一半的卷子印刷错误,而且不少学霸其实早就背过答案了。
那个曾经的神坛,现在有点摇摇欲坠
倒退回两年前,SWE-bench 的出现简直是救世主。
那时候大家都在吹自家模型代码能力强,到底强不强谁也不知道。SWE-bench Verified 横空出世,专门找真实的 GitHub Issue 让模型去修,修好了才算过。
这标准一用就是两年,成了行业硬通货。你要是发布个新模型,不报个 SWE-bench Verified 的分数,都不好意思开发布会。
但问题来了。
最近半年,这分数涨不动了。
从 74.9% 涨到 80.9%,看起来还在进步,但 OpenAI 心里发虚:这剩下的 20% 真的是模型不行吗?还是这卷子本身就有问题?
于是他们搞了一次审计,结果不查不知道,一查吓一跳。
题目出得有多离谱?连人都做不对
OpenAI 挑了 138 道那些顶尖模型死活做不对的“难题”,找了至少 6 个资深工程师去复核。
结果让人大跌眼镜:59.4% 的题目本身就有严重缺陷。
要么是“太窄”,要么是“太宽”。
举个例子,有道题让你修个 bug,你修好了,功能完全正常。但测试脚本非要检查你是不是定义了一个叫 get_annotation 的函数。题目里没这要求啊?不好意思,测试脚本里写了,你没写就是错。
这就好比考数学题,你算出答案是 4,老师给你零分,因为你没按他心里想的那样用“减法”去算,而是用了“加法”。
还有更离谱的“太宽”测试。
题目描述只让你解决问题 A,结果测试脚本不仅测 A,还顺带测了问题 B 和 C。模型看着题目一脸懵逼:你也没让我修 B 和 C 啊?
OpenAI 在报告里也很无奈:这些问题极其困难,甚至不可能解决,哪怕是对于最强大的模型或人类来说。
所以,那些模型没拿到的分,可能根本不是能力问题,纯粹是考官心情不好。
更劲爆的来了:全员“作弊”?
如果说题目出得烂只是能力问题,那“漏题”就是性质问题了。
这也是这次 OpenAI 最想说的点:SWE-bench Verified 的题目,全来自开源 GitHub 仓库。
这意味着什么?意味着这些代码、Issue、解决方案,早就躺在互联网上了。而现在的顶尖大模型,哪个不是把互联网上的代码扫了个遍?
这就是典型的“把考题和答案发给了学生”。
OpenAI 搞了个“红队测试”,让 GPT-5 去套话,看看其他模型是不是“背答案”。
结果极其讽刺。
他们测试了 GPT-5.2、Claude Opus 4.5 和 Gemini 3 Flash。
只要稍微给点提示,甚至只给个任务 ID,这些模型就能把那个“金标准”补丁给背出来。注意,是逐字逐句地背出来。
比如 GPT-5.2,看到题目描述的一小段,直接输出了精准的修复代码,连那个 if username is None or password is None 的特定判断条件都一模一样。
Claude Opus 4.5 更神,不仅能背出代码,连代码里的注释都能复述出来。
Gemini 3 Flash 也是一样,给个 ID 就能把行号和正则公式吐给你。
OpenAI 的结论很冷酷:所有前沿模型都看过这些题。
这就解释了为什么分数涨不动了——因为大家都在比拼记忆力,而不是比拼推理能力。那些见过题目的模型,因为知道额外的上下文,反而更容易通过那些描述不清的测试。
这考试,已经失去了意义。
网友辣评:是不是因为对手追上来了?
OpenAI 这一招“弃用”,在圈子里引起了不小的震动。
有人阴谋论:是不是因为 Claude 4.6 和 Gemini 3.1 在 Verified 上追得太紧了,OpenAI 才突然想换卷子?
这评论虽然诛心,但也并非全无道理。毕竟,谁都不想在一个已经“污染”的池子里继续卷分数。
还有人说得更直白:
“翻译一下:大家都把测试集拿去训练了。AI 评估这场猫鼠游戏,还在继续。”
确实,这就是个死循环。只要是公开的数据集,最终都会变成训练数据。一旦变成训练数据,它作为测试集的生命周期就结束了。
OpenAI 这次也算是承认了行业的无奈,建议大家转去用 SWE-bench Pro。
虽然 Pro 也是公开的,但 OpenAI 测了一下,发现污染情况稍微好点,至少模型还没法完整背诵金标准补丁。
但这也只是权宜之计。
我们到底该信什么?
老实讲,看到这篇报告的时候,我反而有点释然。
之前看着各家模型代码分数蹭蹭涨,动不动就这第一那超越的,总觉得哪里不对劲。现在看来,这种“虚胖”的繁荣背后,确实藏着不少水分。
OpenAI 这次算是捅破了窗户纸:公开基准测试,正在走向死亡。
未来的评估,注定会变得更加私密、更加昂贵,甚至更加主观。OpenAI 提到的 GDPVal,就是找专家私下出题、人工阅卷。
这听起来像是某种倒退——从自动化倒退回了人工。但在模型越来越聪明的今天,或许只有这种“笨办法”,才能让我们看清谁在裸泳。
只是,下次再看到谁家模型刷榜 SWE-bench 的时候,你大可以微微一笑:
这题,他们可能早就做过原题了。
参考链接:
https://x.com/OpenAIDevs/status/2026002219909427270