GLM-5.1深夜炸场：连肝8小时不睡觉，性能暴涨6倍，开源模型终于学会了“长跑”

如果让你盯着一个代码问题连续优化8个小时，你会疯吗？

大概率会。但GLM-5.1不会。

就在昨晚，Z.ai扔出了新一代开源模型GLM-5.1。没什么铺天盖地的宣发，但看一眼技术报告，你会倒吸一口凉气：SWE-Bench Pro开源第一、全球第三，更夸张的是，它解决了一个困扰AI界很久的顽疾——模型“早熟”。

AI配图

以前的模型，不管是GPT还是Claude，给它们10分钟和给它们10个小时，结果往往差不多。初稿即终稿，后面全是无效重复。

GLM-5.1不一样。它不仅能跑，还能在长达8小时的任务里越跑越快，越改越好。

AI配图

这才是这波更新最可怕的地方。

榜单上的“显眼包”，开源界的“新卷王”

先看硬指标，毕竟这是敲门砖。

在被称为“程序员照妖镜”的SWE-Bench Pro上，GLM-5.1跑出了58.4分。

这是什么概念？

它不仅把上一代GLM-5甩开了一大截，还力压GPT-5.4（57.7）和Claude Opus 4.6（57.3），直接拿下了开源榜第一，全球总排名第三。

bench_51

在NL2Repo（仓库生成）和Terminal-Bench 2.0（终端任务）这些更考验“动手能力”的项目上，GLM-5.1也是大幅领先。

但这还不是重点。

老实讲，现在的大模型，刷榜刷得大家都麻了。今天你第一，明天我第一，差个0.1分能写三页PPT。

GLM-5.1真正想解决的，是“耐力”问题。

拒绝“三分钟热度”，它把性能榨干了600%

以前的模型有个通病：早熟。

遇到问题，它们会迅速用熟悉的套路给出一个还不错的解法，然后……就没然后了。哪怕你给它一天时间，它也只会原地打转，像极了赶DDL的大学生，交稿那一刻就停止思考。

GLM-5.1想打破这个魔咒。Z.ai团队给了它一个新设定：长视界任务。

为了验证它到底能“熬”多久，团队搞了个极端测试：优化向量数据库。

这活儿枯燥且硬核。模型需要在Rust骨架里填肉，还得不断编译、测试、调优。此前最好的成绩是Claude Opus 4.6跑出的3547 QPS。

GLM-5.1上来后，画风变了。

它没有满足于初稿的及格线，而是开启了疯狂迭代模式。600多次提交，6000多次工具调用。

这过程不是简单的“试错”，而是真正的“思考”。

数据记录下了它的心路历程：

第90次迭代：它突然“开窍”，放弃了全量扫描，改用IVF聚类探测，性能瞬间跳到6.4k QPS。
第240次迭代：它又觉得不够，引入了两阶段流水线，u8预打分+f16重排，冲到了13.4k QPS。

最后，成绩定格在21.5k QPS。

比之前的最好成绩，足足快了6倍。

说实话，看到这个阶梯状的优化曲线时，我是有点震撼的。这不是在跑分，这是在搞科研。它证明了：只要模型足够聪明，给它时间，它真的能给你惊喜。

没有KPI，它怎么逼自己干了8小时？

如果说优化数据库还有个数字指标在那儿悬着，那“写一个Linux桌面”这种活儿，怎么量化？

这才是GLM-5.1最让人细思极恐的地方。

团队给了一个极度模糊的需求：在浏览器里写个Linux桌面环境。没图，没参考，没中间检查。

以前的模型遇到这种题，基本就是“摆烂”。搭个静态的任务栏，画两个占位的窗口，然后一本正经地告诉你：“老板，做完了。”

GLM-5.1没有。

团队给它套了个简单的“自省”外挂：每做完一轮，自己回头看一眼，哪不好？改。

这一改，就是8个小时。

刚开始，它也是那个简陋的架子。但慢慢地，它觉得不够。于是，文件浏览器有了，终端有了，文本编辑器、系统监视器、计算器、甚至小游戏，一个个冒了出来。

而且这些不是简单的堆砌。

它还在调整样式，处理交互的边缘情况，让整个UI看起来像模像样。

8小时后，一个功能完整、视觉统一的Linux桌面环境，真的在浏览器里跑起来了。

这背后没有人类的提示词，没有“请优化一下UI”的指令，完全是模型自己在跟自己较劲。

个人觉得，这才是Agent该有的样子。它不再是那个你推一下动一下的算盘珠子，它有了“完成度”的概念。

还没到“完全体”，但路走对了

当然，咱也不能无脑吹。

在KernelBench（GPU内核优化）这个项目里，GLM-5.1虽然做到了3.6倍的加速，但比起Claude Opus 4.6的4.2倍，还是差了一口气。

这说明在极度复杂的系统级优化上，GLM-5.1还有提升空间。毕竟，长跑能力有了，但“爆发力”和“技巧”还得练。

而且，长程任务本身也带来了新挑战：怎么在几千次工具调用里保持逻辑不崩？怎么在没有明确数字指标的任务里，更准确地自我评估？

这些依然是开放的前沿课题。

AI配图

但不管怎么说，GLM-5.1把开源模型的门槛，又狠狠地抬高了一截。

MIT协议开源，权重已上HuggingFace，API即刻可用。

这不是一个简单的版本更新，这是在告诉大家：AI Agent的“长跑时代”，开始了。

【锐评】：
GLM-5.1最狠的不是刷榜，而是证明了AI也能像人一样“死磕”——只要给足时间，它能把“凑合”变成“完美”。这才是程序员失业危机的真正开始。

参考链接：
https://x.com/Zai_org/status/2041550153354519022