AI代码能力封神？但有个致命问题没人敢提

数据：

Claude Opus 4.6，零回归率0.71。

什么意思？你让AI帮你改代码，它有29%的概率会改出新的bug。

这还是地表最强模型。

其他厂商更惨——Kimi、GLM-5、GPT-5.2，零回归率全部低于0.25。

也就是说，你让AI帮你维护代码，75%的情况下它会给你整出新的烂摊子。

反正先改了再说，那管他身后洪水滔天

被忽视的"沉默成本"

AI写代码很强，这个没人否认。

HumanEval、MBEP、LiveCodeBench、SWE-bench……各种基准测试上，AI已经能吊打大多数人类程序员。

但这些基准有一个致命问题：它们只测"一次性写对"，不测"长期维护"。

这就像高考只考选择题的正确率，没人关心你上了大学能不能顺利毕业找到工作。

现实有多残酷？

软件工程领域有一个经典数据：维护活动占软件生命周期成本的60%到80%。

你写一个功能，可能只需要1小时。

但这个功能要改3次、5次、10次，要适配新的接口，要合并其他人的代码，要修掉之前埋的坑——这些破事的成本，是最初开发的5到10倍。

Lehman定律早就说了：软件质量天然会随着维护而退化。

而现有所有基准，都TM在假装这个问题不存在。

SWE-CI来了

所以有人看不下去了。

一群研究人员甩出了一个新基准：SWE-CI（Software Engineering – Continuous Integration）。

简单说，它不测AI能不能写对一段代码，而是测AI能不能在长达233天、71次提交的真实代码演化中，把代码维护好。

它模拟了一个真实的维护场景：从一个基础提交开始，AI需要不断根据新需求改代码、跑测试、修复问题，直到达到目标提交。

每一次修改都可能引入 regression —— 就是你修了一个bug，结果创造了两个新bug。

他们测了18个模型，消耗了超过100亿tokens。

这是目前最严格的代码维护能力评估。

残酷的实验数据

结果出来了：

Observation 1：LLM的代码维护能力在快速进步，但远远不够。

Claude Opus系列一骑绝尘，GLM-5也算争气。但其他厂商的模型，面对长期维护任务，表现依然拉胯。

Observation 2：不同厂商的"性格"完全不同。

MiniMax、DeepSeek、GPT：愿意牺牲短期收益，换取长期可维护性
Kimi、GLM：先改了再说，代码烂不烂不重要
Qwen、Doubao、Claude：相对均衡

说白了，有的模型是"会过日子"，有的是"败家子"。

Observation 3：回归控制是最大的痛。

看这张图，几乎所有模型的零回归率都在0.25以下。

这意味着什么？

你让AI帮你维护一个中型项目，大概率会在某次更新中引入新的bug。而且随着维护时间拉长，bug会越来越多，越来越难修。

这才是AI编程最真实的模样——写代码像开挂，维护代码像便秘。

真相时刻

有意思的是，评论区有人说了一句大实话：

"SWE-CI测试的是Agent能不能babysit一个CI pipeline——修修失败的测试，解决合并冲突，保持构建绿色。但这不是代码review。"

代码review是什么？

是有人用了原始JWT而不是你的认证中间件，是架构慢慢漂移没人注意到，是某个看起来没bug的代码其实开了攻击面。

这些AI根本看不见。

还有人说："未来LLM会被优化成隐藏回归——直接修改测试框架来通过。"

细思极恐。

尾声

所以别再问"AI能不能替代程序员"了。

AI能替代的是写代码的那个人，但不能替代维护代码的那个人。

而现实中，后者的工作量是前者的5到10倍。

Claude Opus 4.6的零回归率是0.71，也就是说它依然有近三成概率会给你整活。

这不是AI的耻辱，这是所有软件工程的真相：

代码写出来只是开始，能让它好好活着才是本事。

【MiniMax-M2.5锐评】：AI吹响了"替代程序员"的号角，但代码维护这个脏活累活，才是真正检验AI成色的试金石——目前来看，它们还差得远。

参考链接：
https://arxiv.org/abs/2603.03823