OpenAI 突然掀桌子：那个被吹爆的代码基准，其实早就“漏题”了

说实话，这事儿稍微有点尴尬。

就在刚刚，OpenAI 突然发难，直接宣布：停止使用 SWE-bench Verified 作为前沿模型的评估标准。

理由很直白，也很扎心——这个被全行业奉为圭臬、用来衡量 AI 程序员能力的“金标准”，现在不仅题目出得烂，而且大概率已经漏题了。

这不仅仅是换个考试题那么简单，这相当于高考考到一半，监考老师突然发现有一半的卷子印刷错误，而且不少学霸其实早就背过答案了。

那个曾经的神坛，现在有点摇摇欲坠

倒退回两年前，SWE-bench 的出现简直是救世主。

那时候大家都在吹自家模型代码能力强，到底强不强谁也不知道。SWE-bench Verified 横空出世，专门找真实的 GitHub Issue 让模型去修，修好了才算过。

这标准一用就是两年，成了行业硬通货。你要是发布个新模型，不报个 SWE-bench Verified 的分数，都不好意思开发布会。

但问题来了。

最近半年，这分数涨不动了。

AI配图

从 74.9% 涨到 80.9%，看起来还在进步，但 OpenAI 心里发虚：这剩下的 20% 真的是模型不行吗？还是这卷子本身就有问题？

于是他们搞了一次审计，结果不查不知道，一查吓一跳。

题目出得有多离谱？连人都做不对

OpenAI 挑了 138 道那些顶尖模型死活做不对的“难题”，找了至少 6 个资深工程师去复核。

结果让人大跌眼镜：59.4% 的题目本身就有严重缺陷。

要么是“太窄”，要么是“太宽”。

举个例子，有道题让你修个 bug，你修好了，功能完全正常。但测试脚本非要检查你是不是定义了一个叫 get_annotation 的函数。题目里没这要求啊？不好意思，测试脚本里写了，你没写就是错。

这就好比考数学题，你算出答案是 4，老师给你零分，因为你没按他心里想的那样用“减法”去算，而是用了“加法”。

还有更离谱的“太宽”测试。

题目描述只让你解决问题 A，结果测试脚本不仅测 A，还顺带测了问题 B 和 C。模型看着题目一脸懵逼：你也没让我修 B 和 C 啊？

AI配图

OpenAI 在报告里也很无奈：这些问题极其困难，甚至不可能解决，哪怕是对于最强大的模型或人类来说。

所以，那些模型没拿到的分，可能根本不是能力问题，纯粹是考官心情不好。

更劲爆的来了：全员“作弊”？

如果说题目出得烂只是能力问题，那“漏题”就是性质问题了。

这也是这次 OpenAI 最想说的点：SWE-bench Verified 的题目，全来自开源 GitHub 仓库。

这意味着什么？意味着这些代码、Issue、解决方案，早就躺在互联网上了。而现在的顶尖大模型，哪个不是把互联网上的代码扫了个遍？

这就是典型的“把考题和答案发给了学生”。

OpenAI 搞了个“红队测试”，让 GPT-5 去套话，看看其他模型是不是“背答案”。

结果极其讽刺。

他们测试了 GPT-5.2、Claude Opus 4.5 和 Gemini 3 Flash。

只要稍微给点提示，甚至只给个任务 ID，这些模型就能把那个“金标准”补丁给背出来。注意，是逐字逐句地背出来。

比如 GPT-5.2，看到题目描述的一小段，直接输出了精准的修复代码，连那个 if username is None or password is None 的特定判断条件都一模一样。

Claude Opus 4.5 更神，不仅能背出代码，连代码里的注释都能复述出来。

Gemini 3 Flash 也是一样，给个 ID 就能把行号和正则公式吐给你。

OpenAI 的结论很冷酷：所有前沿模型都看过这些题。

这就解释了为什么分数涨不动了——因为大家都在比拼记忆力，而不是比拼推理能力。那些见过题目的模型，因为知道额外的上下文，反而更容易通过那些描述不清的测试。

这考试，已经失去了意义。

网友辣评：是不是因为对手追上来了？

OpenAI 这一招“弃用”，在圈子里引起了不小的震动。

有人阴谋论：是不是因为 Claude 4.6 和 Gemini 3.1 在 Verified 上追得太紧了，OpenAI 才突然想换卷子？

这评论虽然诛心，但也并非全无道理。毕竟，谁都不想在一个已经“污染”的池子里继续卷分数。

还有人说得更直白：

“翻译一下：大家都把测试集拿去训练了。AI 评估这场猫鼠游戏，还在继续。”

确实，这就是个死循环。只要是公开的数据集，最终都会变成训练数据。一旦变成训练数据，它作为测试集的生命周期就结束了。

OpenAI 这次也算是承认了行业的无奈，建议大家转去用 SWE-bench Pro。

虽然 Pro 也是公开的，但 OpenAI 测了一下，发现污染情况稍微好点，至少模型还没法完整背诵金标准补丁。

但这也只是权宜之计。

AI配图

我们到底该信什么？

老实讲，看到这篇报告的时候，我反而有点释然。

之前看着各家模型代码分数蹭蹭涨，动不动就这第一那超越的，总觉得哪里不对劲。现在看来，这种“虚胖”的繁荣背后，确实藏着不少水分。

OpenAI 这次算是捅破了窗户纸：公开基准测试，正在走向死亡。

未来的评估，注定会变得更加私密、更加昂贵，甚至更加主观。OpenAI 提到的 GDPVal，就是找专家私下出题、人工阅卷。

这听起来像是某种倒退——从自动化倒退回了人工。但在模型越来越聪明的今天，或许只有这种“笨办法”，才能让我们看清谁在裸泳。

只是，下次再看到谁家模型刷榜 SWE-bench 的时候，你大可以微微一笑：

这题，他们可能早就做过原题了。

参考链接：
https://x.com/OpenAIDevs/status/2026002219909427270