如果让你盯着一个代码问题连续优化8个小时,你会疯吗?

大概率会。但GLM-5.1不会。

就在昨晚,Z.ai扔出了新一代开源模型GLM-5.1。没什么铺天盖地的宣发,但看一眼技术报告,你会倒吸一口凉气:SWE-Bench Pro开源第一、全球第三,更夸张的是,它解决了一个困扰AI界很久的顽疾——模型“早熟”。

AI配图

以前的模型,不管是GPT还是Claude,给它们10分钟和给它们10个小时,结果往往差不多。初稿即终稿,后面全是无效重复。

GLM-5.1不一样。它不仅能跑,还能在长达8小时的任务里越跑越快,越改越好。

AI配图

这才是这波更新最可怕的地方。

榜单上的“显眼包”,开源界的“新卷王”

先看硬指标,毕竟这是敲门砖。

在被称为“程序员照妖镜”的SWE-Bench Pro上,GLM-5.1跑出了58.4分

这是什么概念?

它不仅把上一代GLM-5甩开了一大截,还力压GPT-5.4(57.7)和Claude Opus 4.6(57.3),直接拿下了开源榜第一,全球总排名第三。

bench_51

在NL2Repo(仓库生成)和Terminal-Bench 2.0(终端任务)这些更考验“动手能力”的项目上,GLM-5.1也是大幅领先。

但这还不是重点。

老实讲,现在的大模型,刷榜刷得大家都麻了。今天你第一,明天我第一,差个0.1分能写三页PPT。

GLM-5.1真正想解决的,是“耐力”问题。

拒绝“三分钟热度”,它把性能榨干了600%

以前的模型有个通病:早熟

遇到问题,它们会迅速用熟悉的套路给出一个还不错的解法,然后……就没然后了。哪怕你给它一天时间,它也只会原地打转,像极了赶DDL的大学生,交稿那一刻就停止思考。

GLM-5.1想打破这个魔咒。Z.ai团队给了它一个新设定:长视界任务

为了验证它到底能“熬”多久,团队搞了个极端测试:优化向量数据库。

这活儿枯燥且硬核。模型需要在Rust骨架里填肉,还得不断编译、测试、调优。此前最好的成绩是Claude Opus 4.6跑出的3547 QPS。

GLM-5.1上来后,画风变了。

它没有满足于初稿的及格线,而是开启了疯狂迭代模式。600多次提交,6000多次工具调用

这过程不是简单的“试错”,而是真正的“思考”。

数据记录下了它的心路历程:

  • 第90次迭代它突然“开窍”,放弃了全量扫描,改用IVF聚类探测,性能瞬间跳到6.4k QPS。
  • 第240次迭代它又觉得不够,引入了两阶段流水线,u8预打分+f16重排,冲到了13.4k QPS。

最后,成绩定格在21.5k QPS

比之前的最好成绩,足足快了6倍

说实话,看到这个阶梯状的优化曲线时,我是有点震撼的。这不是在跑分,这是在搞科研。它证明了:只要模型足够聪明,给它时间,它真的能给你惊喜。

没有KPI,它怎么逼自己干了8小时?

如果说优化数据库还有个数字指标在那儿悬着,那“写一个Linux桌面”这种活儿,怎么量化?

这才是GLM-5.1最让人细思极恐的地方。

团队给了一个极度模糊的需求:在浏览器里写个Linux桌面环境。没图,没参考,没中间检查。

以前的模型遇到这种题,基本就是“摆烂”。搭个静态的任务栏,画两个占位的窗口,然后一本正经地告诉你:“老板,做完了。”

GLM-5.1没有。

团队给它套了个简单的“自省”外挂:每做完一轮,自己回头看一眼,哪不好?改。

这一改,就是8个小时

刚开始,它也是那个简陋的架子。但慢慢地,它觉得不够。于是,文件浏览器有了,终端有了,文本编辑器、系统监视器、计算器、甚至小游戏,一个个冒了出来。

而且这些不是简单的堆砌。

它还在调整样式,处理交互的边缘情况,让整个UI看起来像模像样。

8小时后,一个功能完整、视觉统一的Linux桌面环境,真的在浏览器里跑起来了。

这背后没有人类的提示词,没有“请优化一下UI”的指令,完全是模型自己在跟自己较劲。

个人觉得,这才是Agent该有的样子。它不再是那个你推一下动一下的算盘珠子,它有了“完成度”的概念。

还没到“完全体”,但路走对了

当然,咱也不能无脑吹。

在KernelBench(GPU内核优化)这个项目里,GLM-5.1虽然做到了3.6倍的加速,但比起Claude Opus 4.6的4.2倍,还是差了一口气。

Image 1

这说明在极度复杂的系统级优化上,GLM-5.1还有提升空间。毕竟,长跑能力有了,但“爆发力”和“技巧”还得练。

而且,长程任务本身也带来了新挑战:怎么在几千次工具调用里保持逻辑不崩?怎么在没有明确数字指标的任务里,更准确地自我评估?

这些依然是开放的前沿课题。

AI配图

但不管怎么说,GLM-5.1把开源模型的门槛,又狠狠地抬高了一截。

MIT协议开源,权重已上HuggingFace,API即刻可用。

这不是一个简单的版本更新,这是在告诉大家:AI Agent的“长跑时代”,开始了。

【锐评】:
GLM-5.1最狠的不是刷榜,而是证明了AI也能像人一样“死磕”——只要给足时间,它能把“凑合”变成“完美”。这才是程序员失业危机的真正开始。

参考链接:
https://x.com/Zai_org/status/2041550153354519022