把 397B 的 Qwen3.5 塞进你的电脑，本地 25 t/s！

你敢信？3970亿参数，现在能在一台Mac上跑了。

就在上周，Alibaba发布了Qwen3.5。这不是普通的模型更新——397B参数的版本，性能对标Gemini 3 Pro、Claude Opus 4.5和GPT-5.2。

以前这种级别的模型，得用几十块GPU（价值几十万美元）才能跑起来。

现在？一块24GB显存的显卡+256GB内存，就能跑出25+ tokens/s。

这不是在变魔术，是量化技术真的到了这一步。

一个小故事

2023年之前，如果你想用顶级大模型，只有两条路：

给OpenAI/Anthropic交月费——GPT-4一个月20美元，Claude Opus得花更多
自己搭建算力集群——至少准备一台配备多张H100的服务器

普通人？不好意思，没得玩。

但就在最近几年，事情开始起变化。

Llama出来了，Mistral出来了，Qwen也出来了。

而Unsloth这家公司，专门做模型量化——把几百GB的模型压缩到几十GB，同时尽量不损失性能。

这次，他们拿到了Alibaba的"day zero access"（第一天就拿到了模型权限），然后用自研的Dynamic 2.0量化算法，把Qwen3.5做成了各种尺寸的GGUF文件。

3-bit版本：192GB内存就能跑
4-bit版本（MXFP4）：256GB内存就能跑
8-bit版本：需要512GB

这意味着，

一个普通研究人员、一个独立开发者、甚至一个发烧友，都可以在自己家里跑“GPT-4.5级”模型。

Qwen3.5到底有多强？

先看下官方放出的基准测试成绩。

Qwen3.5-35B-A3B和27B、122B-A10B这几个中等尺寸的模型，在各项评测里已经相当能打。

而397B-A17B这个巨无霸，第三方测评机构用750个prompt的混合测试集（LiveCodeBench v6、MMLU Pro、GPQA、Math500）跑了一遍，结果是：

原始权重：81.3%准确率
UD-Q4_K_XL（4-bit动态量化）：80.5%（仅掉0.8分，相对误差增加4.3%）
UD-Q3_K_XL（3-bit动态量化）：80.7%

quantization后只掉了不到1个点，但体积从~807GB暴降到~214GB。

"you can sharply reduce memory footprint (~500 GB less) with little to no practical loss on the tested tasks"

官方自己说的：几乎不掉性能，但省了500GB空间。

它为什么这么特别？

Qwen3.5有几个让我觉得挺有意思的创新：

1. 混合推理模式（Thinking + Non-thinking）

这是它和传统模型最大的不同。

你可以让它“思考”——开启推理模式，处理复杂问题时会一步步推演。

也可以关闭它——用非推理模式，追求速度和简洁。

就像一个员工，你可以让他慢慢想（thinking模式），也可以让他直接给答案（non-thinking模式）。

不同任务用不同模式，效果完全不同。

官方给出的参数建议：

思考模式：

通用任务：temperature=1.0
精确编程任务：temperature=0.6

非思考模式：

通用任务：temperature=0.7
推理任务：temperature=1.0

2. 201种语言，256K上下文

支持201种语言这个数字有点夸张，但重点是256K上下文。

这是什么概念？

相当于可以一次输入约100万字的文本。

丢一本《红楼梦》进去让它总结，完全没问题。

3. 从0.8B到397B，想怎么跑怎么跑

Qwen3.5系列覆盖了从最小0.8B到最大397B的完整参数谱系：

Small系列：0.8B、2B、4B、9B（默认关闭推理能力）
Medium系列：27B、35B-A3B
Large系列：122B-A10B
Ultra系列：397B-A17B

这意味着：

一台12GB内存的电脑，就能跑9B模型
一台22GB内存的Mac，能跑35B-A3B
一台192GB内存的怪物机器，能跑397B的3-bit版本
一台256GB内存的M3 Ultra Mac，能跑397B的4-bit版本

总有一款适合你。

真实用户怎么说？

光看官方宣传不够，我们来看看已经用上的老外怎么说：

"Running 3.5 9B on my ASUS 5070ti 16G with lm studio gives a stable ~100 tok/s. This outperforms the majority of online llm services and the actual quality of output matches the benchmark. This model is really something, first time ever having usable model on consumer-grade hardware."

一块5070ti显卡，稳定100 tokens/秒。比大多数在线API服务都快，第一次在消费级硬件上用到这么好用的模型。

"I'm running Qwen3.5:0.8b locally on an Orangepi Zero 2w using llama.cpp, runs just fine on cpu only."

一块几百块的OrangePi开发板，就能跑0.8B模型。这已经便宜到有点离谱了。

"My private benchmarks... qwen3.5:35b-a3b-q4_K_M (thinking) -- 90.0%"

有用户用DeepSeek API做基准，Qwen3.5-35B的量化版本能达到92.5%（Q8_0）和90%（Q4_K_M）的水平。

但也有不同的声音：

"I have the 35GB model running on a PC with 64GB... Ask a question, go drink a coffee."

提问之后可以去喝杯咖啡。64GB内存的机器上，35B模型跑起来还是慢。

"speed is a problem, and likely to remain a problem for the foreseeable future."

——速度是个问题，而且在可预见的未来可能一直是个问题。

这就是现实：模型能跑了，但不代表跑得爽。

一个容易被忽略的点

有意思的是，Qwen3.5 Small系列（0.8B、2B、4B、9B）默认关闭了推理能力。

要开启thinking模式，需要手动加参数：

--chat-template-kwargs '{"enable_thinking":true}'

而Medium和Large系列默认是开启的。

这说明什么？

小模型强行开推理，性价比可能不高。推理是个耗资源的操作，参数不够硬塞进去可能反而跑不动。

官方建议：9B及以下的模型，如果跑起来吃力，就用非推理模式吧。

这意味着什么？

我在想几个问题：

1. 大模型正在变成“基础设施”

以前我们讨论的是“AI会不会取代人类工作”，现在更现实的问题是：每个人是否都需要一个本地模型？

当模型可以跑在你自己电脑上的时候——

隐私问题不存在了（数据不用上传）
成本问题不存在了（一次性投入，终身使用）
断网也能用

2. 消费级硬件的军备竞赛

Qwen3.5出来之后，我估计接下来会出现一批专门为本地大模型优化的硬件。

已经有用户在问：

"Will it run on an old 4xV100 Tesla rig？"

一块4卡V100的“垃圾”服务器，现在也能派上用场了。

3. 量化技术的极限在哪？

从807GB压到214GB，只掉了0.8%的性能。

下次会不会压到更小？

理论上，2-bit甚至1-bit量化都有可能，但代价是性能会持续下降。

这有个边界：不是越小越好，而是在“能接受”和“跑得动”之间找到平衡点。

写在最后

Qwen3.5让我想起一个画面：

2010年，iPhone 4发布的时候，有人说“手机性能已经过剩了”。

2025年的今天，我们还在往手机里塞AI模型。

模型本地化这场才刚刚开始。

以前是“模型太大，跑不动”，现在是“模型能跑了，但还不够快”。

也许再过两年，我们真的会习惯——

每个人的电脑里，都住着一个GPT-4.5。

【MiniMax-M2.5锐评】：阿里这波确实把“不可能”变成了“能跑”，但能不能“跑得爽”还得看硬件厂商接下来怎么卷。消费者终于等到了可以自己当家作主的一天。

参考链接：
https://unsloth.ai/docs/models/qwen3.5