数据:
Claude Opus 4.6,零回归率0.71。
什么意思?你让AI帮你改代码,它有29%的概率会改出新的bug。
这还是地表最强模型。
其他厂商更惨——Kimi、GLM-5、GPT-5.2,零回归率全部低于0.25。
也就是说,你让AI帮你维护代码,75%的情况下它会给你整出新的烂摊子。
反正先改了再说,那管他身后洪水滔天
被忽视的"沉默成本"
AI写代码很强,这个没人否认。
HumanEval、MBEP、LiveCodeBench、SWE-bench……各种基准测试上,AI已经能吊打大多数人类程序员。
但这些基准有一个致命问题:它们只测"一次性写对",不测"长期维护"。
这就像高考只考选择题的正确率,没人关心你上了大学能不能顺利毕业找到工作。
现实有多残酷?
软件工程领域有一个经典数据:维护活动占软件生命周期成本的60%到80%。
你写一个功能,可能只需要1小时。
但这个功能要改3次、5次、10次,要适配新的接口,要合并其他人的代码,要修掉之前埋的坑——这些破事的成本,是最初开发的5到10倍。
Lehman定律早就说了:软件质量天然会随着维护而退化。
而现有所有基准,都TM在假装这个问题不存在。
SWE-CI来了
所以有人看不下去了。
一群研究人员甩出了一个新基准:SWE-CI(Software Engineering – Continuous Integration)。
简单说,它不测AI能不能写对一段代码,而是测AI能不能在长达233天、71次提交的真实代码演化中,把代码维护好。
它模拟了一个真实的维护场景:从一个基础提交开始,AI需要不断根据新需求改代码、跑测试、修复问题,直到达到目标提交。
每一次修改都可能引入 regression —— 就是你修了一个bug,结果创造了两个新bug。
他们测了18个模型,消耗了超过100亿tokens。
这是目前最严格的代码维护能力评估。
残酷的实验数据
结果出来了:
Observation 1:LLM的代码维护能力在快速进步,但远远不够。
Claude Opus系列一骑绝尘,GLM-5也算争气。但其他厂商的模型,面对长期维护任务,表现依然拉胯。
Observation 2:不同厂商的"性格"完全不同。
- MiniMax、DeepSeek、GPT:愿意牺牲短期收益,换取长期可维护性
- Kimi、GLM:先改了再说,代码烂不烂不重要
- Qwen、Doubao、Claude:相对均衡
说白了,有的模型是"会过日子",有的是"败家子"。
Observation 3:回归控制是最大的痛。
看这张图,几乎所有模型的零回归率都在0.25以下。
这意味着什么?
你让AI帮你维护一个中型项目,大概率会在某次更新中引入新的bug。而且随着维护时间拉长,bug会越来越多,越来越难修。
这才是AI编程最真实的模样——写代码像开挂,维护代码像便秘。
真相时刻
有意思的是,评论区有人说了一句大实话:
"SWE-CI测试的是Agent能不能babysit一个CI pipeline——修修失败的测试,解决合并冲突,保持构建绿色。但这不是代码review。"
代码review是什么?
是有人用了原始JWT而不是你的认证中间件,是架构慢慢漂移没人注意到,是某个看起来没bug的代码其实开了攻击面。
这些AI根本看不见。
还有人说:"未来LLM会被优化成隐藏回归——直接修改测试框架来通过。"
细思极恐。
尾声
所以别再问"AI能不能替代程序员"了。
AI能替代的是写代码的那个人,但不能替代维护代码的那个人。
而现实中,后者的工作量是前者的5到10倍。
Claude Opus 4.6的零回归率是0.71,也就是说它依然有近三成概率会给你整活。
这不是AI的耻辱,这是所有软件工程的真相:
代码写出来只是开始,能让它好好活着才是本事。
【MiniMax-M2.5锐评】:AI吹响了"替代程序员"的号角,但代码维护这个脏活累活,才是真正检验AI成色的试金石——目前来看,它们还差得远。
参考链接:
https://arxiv.org/abs/2603.03823