30B 模型的“暴力美学”？GLM-4.7-Flash 横空出世，这几项数据简直不讲理

开源圈又炸了。

就在大家以为大模型比拼已经陷入“堆参数、卷算力”的军备竞赛时，一个名为 GLM-4.7-Flash 的模型突然现身 Hugging Face。

它只有 30B 的参数量，却号称是“30B 级别最强”。

更离谱的是，它不是靠单项刷分，而是在编程、推理、工具调用等多个维度上，对同级别竞品实施了近乎“降维打击”般的碾压。这哪里是 Flash（闪电），这简直是“重锤”。

数据不会撒谎，但这差距太残暴了

先看最直观的“战损比”。

在 Hugging Face 公布的基准测试中，GLM-4.7-Flash 的对手被锁定为 Qwen3-30B-A3B-Thinking-2507 和 GPT-OSS-20B。

如果是势均力敌，那叫精彩；但如果是单方面屠杀，那就有点“不讲武德”了。

最夸张的对比出现在 SWE-bench Verified 这项极具含金量的代码基准测试上，GLM-4.7-Flash 拿到了 59.2 分。

作为对比，GPT-OSS-20B 的得分是 34.0。Qwen3-30B 只有 22.0

断层式领先，接近 60% 的分数在 SWE-bench 上意味着什么？懂行的都知道，这已经摸到了顶级闭源模型的门槛，而它只是一个 30B 规模的开源模型。

再看看 τ²-Bench（工具调用能力测试），GLM-4.7-Flash 考了 79.5 分。

对手呢？Qwen3-30B 是 49.0，GPT-OSS-20B 是 47.7。

将近 30 分的差距，说明这个模型在“动脑子解决问题”这件事上，已经把同侪甩开了一个身位。

甚至是在 BrowseComp（网页浏览与理解）这种极端考验综合能力的测试中，GLM-4.7-Flash 拿出了 42.8 的成绩，而 Qwen3-30B 只有 2.29。

数学与逻辑：不仅要快，还要准

如果说代码和工具调用是“实战”，那数学和逻辑推理就是“内功”。

在 AIME 25（美国数学邀请赛）这项高难度数学基准中，GLM-4.7-Flash 得到了 91.6 分。

这个成绩仅以微弱劣势落后于 GPT-OSS-20B 的 91.7，但大幅领先于 Qwen3-30B 的 85.0。要知道，AIME 25 可是很多顶尖模型的“滑铁卢”，能稳定在 90 分以上，说明其逻辑推理链条的严密性已经相当恐怖。

再看 GPQA（研究生级科学问答），GLM-4.7-Flash 拿下 75.2 分，同样领跑全场。

哪怕是 LCB v6 这种稍微落后一点的测试（64.0 分，对比 Qwen3 的 66.0），它也咬得很紧。

这就像一个轻量级拳击手，不仅速度比对手快，重拳的力量居然也不输重量级选手。

轻量部署

性能强是一回事，好不好用是另一回事。

GLM-4.7-Flash 的另一个杀手锏，在于它是一个 30B-A3B MoE（混合专家）模型。

MoE 架构的好处大家都懂：在保持庞大参数量的同时，每次推理只激活一部分参数，从而实现“高性能、低推理成本”。

官方明确表示，它为“轻量级部署提供了新选项”。

这意味着什么？

意味着你不需要拥有像大厂那样的 H100 集群，也能在本地跑起一个接近顶级水平的模型。目前，GLM-4.7-Flash 已经原生支持 vLLM 和 SGLang 两大主流推理框架。

注意，必须是这两个框架的 main branches（主分支） 才能支持。

对于想尝鲜的开发者，官方已经把代码端上来了。

使用 vLLM 部署：

pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly
pip install git+https://github.com/huggingface/transformers.git

使用 SGLang 部署：

uv pip install sglang==0.3.2.dev9039+pr-17247.g90c446848 --extra-index-url https://sgl-project.github.io/whl/pr/
uv pip install git+https://github.com/huggingface/transformers.git@76732b4e7120808ff989edbd16401f61fa6a0afa

甚至对于 Blackwell 这种最新架构的 GPU，SGLang 也给出了专门的启动参数优化：

`--attention-backend triton --speculative-draft-attention-backend triton`

这种工程上的适配速度，说明 GLM 这次是有备而来，不是扔个半成品就跑。

GLM-4.7-Flash 的出现，给开源社区打了一针强心剂。它证明了模型不一定非要无限膨胀参数，只要架构设计得当（比如 MoE），训练数据够硬，30B 级别的模型完全可以在特定任务上“越级打怪”。

参考链接：
https://huggingface.co/zai-org/GLM-4.7-Flash