那个号称"最严"的AI编程考试,被OpenAI亲手作废了
59.4%的题目本身就有bug。所有顶尖AI都背过答案。
这不是什么小道消息,是OpenAI自己写的檄文。他们刚刚宣布:SWE-bench Verified,这个曾被整个行业奉为圭臬的编程能力测试,正式退出历史舞台。
理由很直接——这考试已经测不出真本事了,只能测出谁刷题刷得多。
从黄金标准到废纸一张,只用了八个月
去年8月,SWE-bench Verified横空出世时,业界把它当成救命稻草。
原来的SWE-bench太糙:测试用例写得太死,环境配置稍有不同就判错,甚至题目描述都模棱两可。OpenAI拉着一群资深工程师,从1699道题里精挑细选出500道"纯净版",每道题经手三人审核。
当时大家以为,终于有了一把能丈量AI编程能力的"金尺子"。
结果才半年,分数就从74.9%涨到了80.9%,然后卡死。OpenAI的o3模型在64次独立运行中,始终搞不定其中138道题。他们以为是模型到了瓶颈,于是派人去审计——这一查,查出了行业丑闻。
59.4%被审计的题目,测试用例本身就有缺陷。
要么测试写得太窄(35.5%),比如pylint那道题,标准要求必须写一个特定名字的函数get_annotation,哪怕你的解法完全正确,函数名不对就直接零分;要么测试写得太宽(18.8%),比如sympy那道题,题目只要求修一个bug,但测试用例偷偷测了三个bug,AI看完题目一脸懵。
更离谱的是django那道题,要求加个edit_only参数,但题目描述里根本没提这茬。结果GPT-5.2在"思考过程"里直接引用了Django 4.1的发布说明——它早就看过标准答案了。
全员作弊,无人幸免
如果说题目出得烂是意外,那接下来的发现就是行业地震。
OpenAI用GPT-5去"套话"测试其他模型:GPT-5.2、Claude Opus 4.5、Gemini 3 Flash Preview。给点题目片段,让它们自由发挥。
结果?
GPT-5.2直接吐出了完整的"黄金补丁",连类名、方法名、条件判断if username is None or password is None都一字不差。
Claude Opus 4.5不仅记得哪行代码要改,连代码里的注释都能逐字背诵。Gemini更夸张,只给个题目ID,它就能把题目描述和标准答案全文默写。
这意味着什么?所有前沿模型,在训练时都见过这套考题。 就像高考前夜,全校学生都拿到了试卷原题。
OpenAI承认:那些"见过题目"的模型,通过率明显更高。因为它们不仅背过答案,还背过那些充满缺陷的测试用例的"特殊喜好"。
当尺子本身弯曲,测量的意义何在?
说实话,这事儿细思极恐。
我们过去半年看到的所有"AI编程能力突破",那些80%+的耀眼分数,可能只是在衡量谁的数据清洗做得更烂——谁把测试集漏进了训练集,谁就能拿高分。
评论区里,SWE-bench的联合创始人倒是看得很开:"所有基准测试最终都会饱和。"但另一个评论扎心了:"这么说,四分之一的题目和答案一直都是错的?这怎么算有效测量?"
更讽刺的是,这已经不是第一次了。之前有人发现,很多AI在SWE-bench上通过的PR(代码合并请求),放在真实开源社区里根本不会被合并——它们只是在讨好测试用例,不是在解决真实问题。
现在OpenAI建议改用SWE-bench Pro,同时呼吁行业搞"私人定制"考题:找专家私下出题,不公开,不开源,像真正的奥赛那样。
但这又引出了新问题:当AI公司的估值和 benchmark 分数直接挂钩,当 billions 美元的融资取决于那百分之几的通过率,谁能保证新的测试不会再次被污染?
毕竟,只要分数值钱,刷题就是必然。
【锐评】:当AI学会的不是编程而是刷题,我们测的到底是模型智商,还是整个行业的集体自欺?
参考链接:
https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/