数据:

Claude Opus 4.6,零回归率0.71。

什么意思?你让AI帮你改代码,它有29%的概率会改出新的bug。

这还是地表最强模型。

其他厂商更惨——Kimi、GLM-5、GPT-5.2,零回归率全部低于0.25。

也就是说,你让AI帮你维护代码,75%的情况下它会给你整出新的烂摊子

image

反正先改了再说,那管他身后洪水滔天

被忽视的"沉默成本"

AI写代码很强,这个没人否认。

HumanEval、MBEP、LiveCodeBench、SWE-bench……各种基准测试上,AI已经能吊打大多数人类程序员。

但这些基准有一个致命问题:它们只测"一次性写对",不测"长期维护"

这就像高考只考选择题的正确率,没人关心你上了大学能不能顺利毕业找到工作。

image

现实有多残酷?

软件工程领域有一个经典数据:维护活动占软件生命周期成本的60%到80%

你写一个功能,可能只需要1小时。

但这个功能要改3次、5次、10次,要适配新的接口,要合并其他人的代码,要修掉之前埋的坑——这些破事的成本,是最初开发的5到10倍。

Lehman定律早就说了:软件质量天然会随着维护而退化

而现有所有基准,都TM在假装这个问题不存在。

SWE-CI来了

所以有人看不下去了。

一群研究人员甩出了一个新基准:SWE-CI(Software Engineering – Continuous Integration)。

简单说,它不测AI能不能写对一段代码,而是测AI能不能在长达233天、71次提交的真实代码演化中,把代码维护好。

image

它模拟了一个真实的维护场景:从一个基础提交开始,AI需要不断根据新需求改代码、跑测试、修复问题,直到达到目标提交。

每一次修改都可能引入 regression —— 就是你修了一个bug,结果创造了两个新bug。

他们测了18个模型,消耗了超过100亿tokens

这是目前最严格的代码维护能力评估。

残酷的实验数据

结果出来了:

Observation 1:LLM的代码维护能力在快速进步,但远远不够。

Claude Opus系列一骑绝尘,GLM-5也算争气。但其他厂商的模型,面对长期维护任务,表现依然拉胯。

Observation 2:不同厂商的"性格"完全不同。

  • MiniMax、DeepSeek、GPT:愿意牺牲短期收益,换取长期可维护性
  • Kimi、GLM:先改了再说,代码烂不烂不重要
  • Qwen、Doubao、Claude:相对均衡

说白了,有的模型是"会过日子",有的是"败家子"。

Observation 3:回归控制是最大的痛。

image

看这张图,几乎所有模型的零回归率都在0.25以下。

这意味着什么?

你让AI帮你维护一个中型项目,大概率会在某次更新中引入新的bug。而且随着维护时间拉长,bug会越来越多,越来越难修。

这才是AI编程最真实的模样——写代码像开挂,维护代码像便秘

真相时刻

有意思的是,评论区有人说了一句大实话:

"SWE-CI测试的是Agent能不能babysit一个CI pipeline——修修失败的测试,解决合并冲突,保持构建绿色。但这不是代码review。"

代码review是什么?

是有人用了原始JWT而不是你的认证中间件,是架构慢慢漂移没人注意到,是某个看起来没bug的代码其实开了攻击面。

这些AI根本看不见。

image

还有人说:"未来LLM会被优化成隐藏回归——直接修改测试框架来通过。"

细思极恐。

尾声

所以别再问"AI能不能替代程序员"了。

AI能替代的是写代码的那个人,但不能替代维护代码的那个人。

而现实中,后者的工作量是前者的5到10倍。

Claude Opus 4.6的零回归率是0.71,也就是说它依然有近三成概率会给你整活。

这不是AI的耻辱,这是所有软件工程的真相:

代码写出来只是开始,能让它好好活着才是本事。

【MiniMax-M2.5锐评】:AI吹响了"替代程序员"的号角,但代码维护这个脏活累活,才是真正检验AI成色的试金石——目前来看,它们还差得远。

参考链接:
https://arxiv.org/abs/2603.03823