大多数AI模型都有一个共同点:跑一会儿就累了。
给它们50次机会,它们能交出不错的答卷。但如果你说"再来500次",它们会原地踏步,甚至开始犯蠢。原因是明确的——这些模型在早期就耗尽了"套路",后续的重复劳动对它们来说只是重复犯错。
但就在昨天,智谱AI发布的GLM-5.1打破了这个困局。
600次迭代,6倍性能
先看最刺激的数据。
VectorDBBench是一个向量数据库优化挑战。之前的SOTA是Claude Opus 4.6用单次50轮跑出的3,547 QPS——很强,但也就是这样了。
智谱换了一种玩法:不让模型在50轮后交卷,而是给它一个"无限游戏"——自己决定什么时候提交新版本,自己决定下一步优化什么。
GLM-5.1跑了600多次迭代,6000多次工具调用。
最终成绩:21.5k QPS。
6倍。朋友们,6倍。
这不是线性增长。性能曲线呈现教科书级别的"阶梯式跃迁":一段时间的微调,然后突然一次结构性的突破,把天花板往上推一截。
- 第90次迭代:从全量扫描切到IVF聚类探查,QPS从2k直接跳到6.4k
- 第240次:加入u8预评分+f16重排的两阶段流水线,突破13k
- 整个过程发生了6次这样的"跃迁"
每次都是模型自己看benchmark日志、自己分析瓶颈、自己决定"该换个玩法了"。
跑1000轮还能继续变强
第二个测试更卷。
KernelBench让模型把PyTorch代码改写成更快的GPU kernel,分三个难度等级。Level 3是50个完整模型的端到端优化,包含MobileNet、VGG、MiniGPT这些大家伙。
基线是多少?torch.compile默认设置只有1.15倍加速,开了max-autotune也就1.49倍。
GLM-5.1在1200轮工具调用中跑出了3.6倍加速,而且还在继续往上升。
对比一下:
- GLM-5:起跑很快,但很快"躺平"
- Claude Opus 4.5:多坚持了一会儿,但后期也疲了
- GLM-5.1:一直跑,一直优化,曲线虽然放缓但没有停下
- Claude Opus 4.6:最强,4.2倍,但到这里也还没见顶
这说明什么?长期优化能力正在成为AI编程模型的新分水岭。过去大家比的是"单次表现",现在比的是"谁能持续变强"。
8小时造出一个Linux桌面
第三个测试最离谱。
没有数值指标——就是一个任务:"用Web技术做一个Linux风格的桌面环境"。没有起始代码,没有设计稿,没有中间指引。
之前的GLM版本什么德行?做个带任务栏的静态页面,然后宣布"任务完成"。
GLM-5.1被套了一个简单的循环:跑完一轮→审视自己哪里没做好→继续改→再跑。
跑了8小时。
结果:文件浏览器、终端、文本编辑器、系统监控、计算器、游戏……一个完整桌面环境跑在浏览器里,UI统一,交互流畅。
这就不是堆代码能解释的了。这是一个需要数千次迭代、持续判断"什么是更好"的工程能力。
故事的反转
等等,标题说"反转",反转在哪?
反转就是:GLM-5.1在SWE-Bench Pro上拿了58.4分,业界第一。在CyberGym上68.7分,干翻了一众对手。在NL2Repo上从35.9冲到42.7。
但在KernelBench上,它还是没干过Claude Opus 4.6。
4.2倍 vs 3.6倍,差距不大,但说明一件事:长坡优化这个能力,智谱开了个好头,但前面还有路。
而且还有三个硬骨头要啃:
- 怎么更快地从"局部最优"里跳出来?
- 怎么在上千次工具调用里保持不跑偏?
- 没有数值指标的任务,怎么让模型可靠地"自己评价自己"?
这些问题解决之后,才是真正的质变。
所以呢?
说句实在的,我见过太多"发布即巅峰"的AI模型——跑分很猛,用起来就那样。
GLM-5.1不太一样。它展示的不是某一次考试能考多少分,而是考试时间拉长到10倍之后,它还能不能持续解题。
这才是工程场景真正需要的品质。
代码可以一次写对,但优化是反复推敲的过程。一个模型能陪你改100次bug,和只能改10次的模型,是两个物种。
智谱把GLM-5.1开源了,MIT协议。这意味着任何人都可以本地部署,拿去改,去测,去看看它是不是真的"持久"。
社区已经炸了。有人跑出来说"生成的TypeScript比Opus还好",也有人说"跑长了偶尔会进入癫狂模式"。
但有一点共识:这个方向,对 了。
【锐评】:AI编程的下一个战场不是"一次答对",而是"陪跑到底"——GLM-5.1证明了持久优化的可行性,但和Claude Opus 4.6的差距说明,这条路才刚起步。
参考链接:
https://z.ai/blog/glm-5.1