开源圈又炸了。

就在大家以为大模型比拼已经陷入“堆参数、卷算力”的军备竞赛时,一个名为 GLM-4.7-Flash 的模型突然现身 Hugging Face。

它只有 30B 的参数量,却号称是“30B 级别最强”。

更离谱的是,它不是靠单项刷分,而是在编程、推理、工具调用等多个维度上,对同级别竞品实施了近乎“降维打击”般的碾压。这哪里是 Flash(闪电),这简直是“重锤”。

数据不会撒谎,但这差距太残暴了

先看最直观的“战损比”。

image

在 Hugging Face 公布的基准测试中,GLM-4.7-Flash 的对手被锁定为 Qwen3-30B-A3B-Thinking-2507 和 GPT-OSS-20B。

如果是势均力敌,那叫精彩;但如果是单方面屠杀,那就有点“不讲武德”了。

最夸张的对比出现在 SWE-bench Verified 这项极具含金量的代码基准测试上,GLM-4.7-Flash 拿到了 59.2 分。

作为对比,GPT-OSS-20B 的得分是 34.0。Qwen3-30B 只有 22.0

断层式领先,接近 60% 的分数在 SWE-bench 上意味着什么?懂行的都知道,这已经摸到了顶级闭源模型的门槛,而它只是一个 30B 规模的开源模型。

再看看 τ²-Bench(工具调用能力测试),GLM-4.7-Flash 考了 79.5 分。

对手呢?Qwen3-30B 是 49.0,GPT-OSS-20B 是 47.7

image

将近 30 分的差距,说明这个模型在“动脑子解决问题”这件事上,已经把同侪甩开了一个身位。

甚至是在 BrowseComp(网页浏览与理解)这种极端考验综合能力的测试中,GLM-4.7-Flash 拿出了 42.8 的成绩,而 Qwen3-30B 只有 2.29

数学与逻辑:不仅要快,还要准

如果说代码和工具调用是“实战”,那数学和逻辑推理就是“内功”。

AIME 25(美国数学邀请赛)这项高难度数学基准中,GLM-4.7-Flash 得到了 91.6 分。

这个成绩仅以微弱劣势落后于 GPT-OSS-20B 的 91.7,但大幅领先于 Qwen3-30B 的 85.0。要知道,AIME 25 可是很多顶尖模型的“滑铁卢”,能稳定在 90 分以上,说明其逻辑推理链条的严密性已经相当恐怖。

再看 GPQA(研究生级科学问答),GLM-4.7-Flash 拿下 75.2 分,同样领跑全场。

哪怕是 LCB v6 这种稍微落后一点的测试(64.0 分,对比 Qwen3 的 66.0),它也咬得很紧。

这就像一个轻量级拳击手,不仅速度比对手快,重拳的力量居然也不输重量级选手。

轻量部署

性能强是一回事,好不好用是另一回事。

GLM-4.7-Flash 的另一个杀手锏,在于它是一个 30B-A3B MoE(混合专家)模型

MoE 架构的好处大家都懂:在保持庞大参数量的同时,每次推理只激活一部分参数,从而实现“高性能、低推理成本”。

image

官方明确表示,它为“轻量级部署提供了新选项”。

这意味着什么?

意味着你不需要拥有像大厂那样的 H100 集群,也能在本地跑起一个接近顶级水平的模型。目前,GLM-4.7-Flash 已经原生支持 vLLMSGLang 两大主流推理框架。

注意,必须是这两个框架的 main branches(主分支) 才能支持。

对于想尝鲜的开发者,官方已经把代码端上来了。

使用 vLLM 部署:

pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly
pip install git+https://github.com/huggingface/transformers.git

使用 SGLang 部署:

uv pip install sglang==0.3.2.dev9039+pr-17247.g90c446848 --extra-index-url https://sgl-project.github.io/whl/pr/
uv pip install git+https://github.com/huggingface/transformers.git@76732b4e7120808ff989edbd16401f61fa6a0afa

甚至对于 Blackwell 这种最新架构的 GPU,SGLang 也给出了专门的启动参数优化:

`--attention-backend triton --speculative-draft-attention-backend triton`

这种工程上的适配速度,说明 GLM 这次是有备而来,不是扔个半成品就跑。

GLM-4.7-Flash 的出现,给开源社区打了一针强心剂。它证明了模型不一定非要无限膨胀参数,只要架构设计得当(比如 MoE),训练数据够硬,30B 级别的模型完全可以在特定任务上“越级打怪”。

参考链接:
https://huggingface.co/zai-org/GLM-4.7-Flash