这个AI模型，跑了600次后终于不「躺平」了

大多数AI模型都有一个共同点：跑一会儿就累了。

给它们50次机会，它们能交出不错的答卷。但如果你说"再来500次"，它们会原地踏步，甚至开始犯蠢。原因是明确的——这些模型在早期就耗尽了"套路"，后续的重复劳动对它们来说只是重复犯错。

但就在昨天，智谱AI发布的GLM-5.1打破了这个困局。

600次迭代，6倍性能

先看最刺激的数据。

VectorDBBench是一个向量数据库优化挑战。之前的SOTA是Claude Opus 4.6用单次50轮跑出的3,547 QPS——很强，但也就是这样了。

智谱换了一种玩法：不让模型在50轮后交卷，而是给它一个"无限游戏"——自己决定什么时候提交新版本，自己决定下一步优化什么。

GLM-5.1跑了600多次迭代，6000多次工具调用。

最终成绩：21.5k QPS。

6倍。朋友们，6倍。

这不是线性增长。性能曲线呈现教科书级别的"阶梯式跃迁"：一段时间的微调，然后突然一次结构性的突破，把天花板往上推一截。

第90次迭代：从全量扫描切到IVF聚类探查，QPS从2k直接跳到6.4k
第240次：加入u8预评分+f16重排的两阶段流水线，突破13k
整个过程发生了6次这样的"跃迁"

每次都是模型自己看benchmark日志、自己分析瓶颈、自己决定"该换个玩法了"。

跑1000轮还能继续变强

AI配图

第二个测试更卷。

KernelBench让模型把PyTorch代码改写成更快的GPU kernel，分三个难度等级。Level 3是50个完整模型的端到端优化，包含MobileNet、VGG、MiniGPT这些大家伙。

基线是多少？torch.compile默认设置只有1.15倍加速，开了max-autotune也就1.49倍。

GLM-5.1在1200轮工具调用中跑出了3.6倍加速，而且还在继续往上升。

对比一下：

GLM-5：起跑很快，但很快"躺平"
Claude Opus 4.5：多坚持了一会儿，但后期也疲了
GLM-5.1：一直跑，一直优化，曲线虽然放缓但没有停下
Claude Opus 4.6：最强，4.2倍，但到这里也还没见顶

这说明什么？长期优化能力正在成为AI编程模型的新分水岭。过去大家比的是"单次表现"，现在比的是"谁能持续变强"。

8小时造出一个Linux桌面

第三个测试最离谱。

没有数值指标——就是一个任务："用Web技术做一个Linux风格的桌面环境"。没有起始代码，没有设计稿，没有中间指引。

之前的GLM版本什么德行？做个带任务栏的静态页面，然后宣布"任务完成"。

GLM-5.1被套了一个简单的循环：跑完一轮→审视自己哪里没做好→继续改→再跑。

跑了8小时。

结果：文件浏览器、终端、文本编辑器、系统监控、计算器、游戏……一个完整桌面环境跑在浏览器里，UI统一，交互流畅。

这就不是堆代码能解释的了。这是一个需要数千次迭代、持续判断"什么是更好"的工程能力。

故事的反转

等等，标题说"反转"，反转在哪？

反转就是：GLM-5.1在SWE-Bench Pro上拿了58.4分，业界第一。在CyberGym上68.7分，干翻了一众对手。在NL2Repo上从35.9冲到42.7。

AI配图

但在KernelBench上，它还是没干过Claude Opus 4.6。

4.2倍 vs 3.6倍，差距不大，但说明一件事：长坡优化这个能力，智谱开了个好头，但前面还有路。

而且还有三个硬骨头要啃：

怎么更快地从"局部最优"里跳出来？
怎么在上千次工具调用里保持不跑偏？
没有数值指标的任务，怎么让模型可靠地"自己评价自己"？

这些问题解决之后，才是真正的质变。

所以呢？

说句实在的，我见过太多"发布即巅峰"的AI模型——跑分很猛，用起来就那样。

GLM-5.1不太一样。它展示的不是某一次考试能考多少分，而是考试时间拉长到10倍之后，它还能不能持续解题。

这才是工程场景真正需要的品质。

代码可以一次写对，但优化是反复推敲的过程。一个模型能陪你改100次bug，和只能改10次的模型，是两个物种。

智谱把GLM-5.1开源了，MIT协议。这意味着任何人都可以本地部署，拿去改，去测，去看看它是不是真的"持久"。

AI配图

社区已经炸了。有人跑出来说"生成的TypeScript比Opus还好"，也有人说"跑长了偶尔会进入癫狂模式"。

但有一点共识：这个方向，对了。

【锐评】：AI编程的下一个战场不是"一次答对"，而是"陪跑到底"——GLM-5.1证明了持久优化的可行性，但和Claude Opus 4.6的差距说明，这条路才刚起步。

参考链接：
https://z.ai/blog/glm-5.1