OpenAI宣布：SWE-bench Verified已无法衡量前沿编码能力

那个号称"最严"的AI编程考试，被OpenAI亲手作废了

59.4%的题目本身就有bug。所有顶尖AI都背过答案。

这不是什么小道消息，是OpenAI自己写的檄文。他们刚刚宣布：SWE-bench Verified，这个曾被整个行业奉为圭臬的编程能力测试，正式退出历史舞台。

理由很直接——这考试已经测不出真本事了，只能测出谁刷题刷得多。

去年8月，SWE-bench Verified横空出世时，业界把它当成救命稻草。

原来的SWE-bench太糙：测试用例写得太死，环境配置稍有不同就判错，甚至题目描述都模棱两可。OpenAI拉着一群资深工程师，从1699道题里精挑细选出500道"纯净版"，每道题经手三人审核。

当时大家以为，终于有了一把能丈量AI编程能力的"金尺子"。

AI配图

结果才半年，分数就从74.9%涨到了80.9%，然后卡死。OpenAI的o3模型在64次独立运行中，始终搞不定其中138道题。他们以为是模型到了瓶颈，于是派人去审计——这一查，查出了行业丑闻。

59.4%被审计的题目，测试用例本身就有缺陷。

要么测试写得太窄（35.5%），比如pylint那道题，标准要求必须写一个特定名字的函数get_annotation，哪怕你的解法完全正确，函数名不对就直接零分；要么测试写得太宽（18.8%），比如sympy那道题，题目只要求修一个bug，但测试用例偷偷测了三个bug，AI看完题目一脸懵。

AI配图

更离谱的是django那道题，要求加个edit_only参数，但题目描述里根本没提这茬。结果GPT-5.2在"思考过程"里直接引用了Django 4.1的发布说明——它早就看过标准答案了。

如果说题目出得烂是意外，那接下来的发现就是行业地震。

OpenAI用GPT-5去"套话"测试其他模型：GPT-5.2、Claude Opus 4.5、Gemini 3 Flash Preview。给点题目片段，让它们自由发挥。

结果？

GPT-5.2直接吐出了完整的"黄金补丁"，连类名、方法名、条件判断if username is None or password is None都一字不差。

Claude Opus 4.5不仅记得哪行代码要改，连代码里的注释都能逐字背诵。Gemini更夸张，只给个题目ID，它就能把题目描述和标准答案全文默写。

这意味着什么？所有前沿模型，在训练时都见过这套考题。 就像高考前夜，全校学生都拿到了试卷原题。

OpenAI承认：那些"见过题目"的模型，通过率明显更高。因为它们不仅背过答案，还背过那些充满缺陷的测试用例的"特殊喜好"。

说实话，这事儿细思极恐。

我们过去半年看到的所有"AI编程能力突破"，那些80%+的耀眼分数，可能只是在衡量谁的数据清洗做得更烂——谁把测试集漏进了训练集，谁就能拿高分。

评论区里，SWE-bench的联合创始人倒是看得很开："所有基准测试最终都会饱和。"但另一个评论扎心了："这么说，四分之一的题目和答案一直都是错的？这怎么算有效测量？"

AI配图

更讽刺的是，这已经不是第一次了。之前有人发现，很多AI在SWE-bench上通过的PR（代码合并请求），放在真实开源社区里根本不会被合并——它们只是在讨好测试用例，不是在解决真实问题。

现在OpenAI建议改用SWE-bench Pro，同时呼吁行业搞"私人定制"考题：找专家私下出题，不公开，不开源，像真正的奥赛那样。

但这又引出了新问题：当AI公司的估值和 benchmark 分数直接挂钩，当 billions 美元的融资取决于那百分之几的通过率，谁能保证新的测试不会再次被污染？

毕竟，只要分数值钱，刷题就是必然。

【锐评】：当AI学会的不是编程而是刷题，我们测的到底是模型智商，还是整个行业的集体自欺？

参考链接：
https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/