你敢信?3970亿参数,现在能在一台Mac上跑了。

就在上周,Alibaba发布了Qwen3.5。这不是普通的模型更新——397B参数的版本,性能对标Gemini 3 Pro、Claude Opus 4.5和GPT-5.2

以前这种级别的模型,得用几十块GPU(价值几十万美元)才能跑起来。

image

现在?一块24GB显存的显卡+256GB内存,就能跑出25+ tokens/s

这不是在变魔术,是量化技术真的到了这一步。

一个小故事

2023年之前,如果你想用顶级大模型,只有两条路:

  1. 给OpenAI/Anthropic交月费——GPT-4一个月20美元,Claude Opus得花更多
  2. 自己搭建算力集群——至少准备一台配备多张H100的服务器

普通人?不好意思,没得玩。

但就在最近几年,事情开始起变化。

Llama出来了,Mistral出来了,Qwen也出来了。

而Unsloth这家公司,专门做模型量化——把几百GB的模型压缩到几十GB,同时尽量不损失性能

这次,他们拿到了Alibaba的"day zero access"(第一天就拿到了模型权限),然后用自研的Dynamic 2.0量化算法,把Qwen3.5做成了各种尺寸的GGUF文件。

3-bit版本:192GB内存就能跑
4-bit版本(MXFP4):256GB内存就能跑
8-bit版本:需要512GB

这意味着,

一个普通研究人员、一个独立开发者、甚至一个发烧友,都可以在自己家里跑“GPT-4.5级”模型。

Qwen3.5到底有多强?

先看下官方放出的基准测试成绩。

Qwen3.5-35B-A3B和27B、122B-A10B这几个中等尺寸的模型,在各项评测里已经相当能打。

397B-A17B这个巨无霸,第三方测评机构用750个prompt的混合测试集(LiveCodeBench v6、MMLU Pro、GPQA、Math500)跑了一遍,结果是:

  • 原始权重:81.3%准确率
  • UD-Q4_K_XL(4-bit动态量化):80.5%(仅掉0.8分,相对误差增加4.3%)
  • UD-Q3_K_XL(3-bit动态量化):80.7%

quantization后只掉了不到1个点,但体积从~807GB暴降到~214GB。

image

"you can sharply reduce memory footprint (~500 GB less) with little to no practical loss on the tested tasks"

官方自己说的:几乎不掉性能,但省了500GB空间。

它为什么这么特别?

Qwen3.5有几个让我觉得挺有意思的创新:

1. 混合推理模式(Thinking + Non-thinking)

这是它和传统模型最大的不同。

你可以让它“思考”——开启推理模式,处理复杂问题时会一步步推演。

也可以关闭它——用非推理模式,追求速度和简洁。

就像一个员工,你可以让他慢慢想(thinking模式),也可以让他直接给答案(non-thinking模式)。

不同任务用不同模式,效果完全不同。

官方给出的参数建议:

思考模式:

  • 通用任务:temperature=1.0
  • 精确编程任务:temperature=0.6

非思考模式:

  • 通用任务:temperature=0.7
  • 推理任务:temperature=1.0

2. 201种语言,256K上下文

支持201种语言这个数字有点夸张,但重点是256K上下文

这是什么概念?

相当于可以一次输入约100万字的文本。

丢一本《红楼梦》进去让它总结,完全没问题。

3. 从0.8B到397B,想怎么跑怎么跑

Qwen3.5系列覆盖了从最小0.8B到最大397B的完整参数谱系:

  • Small系列0.8B、2B、4B、9B(默认关闭推理能力)
  • Medium系列27B、35B-A3B
  • Large系列122B-A10B
  • Ultra系列397B-A17B

这意味着:

  • 一台12GB内存的电脑,就能跑9B模型
  • 一台22GB内存的Mac,能跑35B-A3B
  • 一台192GB内存的怪物机器,能跑397B的3-bit版本
  • 一台256GB内存的M3 Ultra Mac,能跑397B的4-bit版本

总有一款适合你。

真实用户怎么说?

image

光看官方宣传不够,我们来看看已经用上的老外怎么说:

"Running 3.5 9B on my ASUS 5070ti 16G with lm studio gives a stable ~100 tok/s. This outperforms the majority of online llm services and the actual quality of output matches the benchmark. This model is really something, first time ever having usable model on consumer-grade hardware."

一块5070ti显卡,稳定100 tokens/秒。比大多数在线API服务都快,第一次在消费级硬件上用到这么好用的模型。

"I'm running Qwen3.5:0.8b locally on an Orangepi Zero 2w using llama.cpp, runs just fine on cpu only."

一块几百块的OrangePi开发板,就能跑0.8B模型。这已经便宜到有点离谱了。

"My private benchmarks... qwen3.5:35b-a3b-q4_K_M (thinking) -- 90.0%"

有用户用DeepSeek API做基准,Qwen3.5-35B的量化版本能达到92.5%(Q8_0)和90%(Q4_K_M)的水平。

但也有不同的声音:

"I have the 35GB model running on a PC with 64GB... Ask a question, go drink a coffee."

提问之后可以去喝杯咖啡。64GB内存的机器上,35B模型跑起来还是慢。

"speed is a problem, and likely to remain a problem for the foreseeable future."

——速度是个问题,而且在可预见的未来可能一直是个问题。

这就是现实:模型能跑了,但不代表跑得爽。

一个容易被忽略的点

有意思的是,Qwen3.5 Small系列(0.8B、2B、4B、9B)默认关闭了推理能力

要开启thinking模式,需要手动加参数:

--chat-template-kwargs '{"enable_thinking":true}'

而Medium和Large系列默认是开启的。

这说明什么?

小模型强行开推理,性价比可能不高。推理是个耗资源的操作,参数不够硬塞进去可能反而跑不动。

官方建议:9B及以下的模型,如果跑起来吃力,就用非推理模式吧。

这意味着什么?

我在想几个问题:

1. 大模型正在变成“基础设施”

以前我们讨论的是“AI会不会取代人类工作”,现在更现实的问题是:每个人是否都需要一个本地模型?

当模型可以跑在你自己电脑上的时候——

  • 隐私问题不存在了(数据不用上传)
  • 成本问题不存在了(一次性投入,终身使用)
  • 断网也能用

2. 消费级硬件的军备竞赛

Qwen3.5出来之后,我估计接下来会出现一批专门为本地大模型优化的硬件。

已经有用户在问:

"Will it run on an old 4xV100 Tesla rig?"

一块4卡V100的“垃圾”服务器,现在也能派上用场了。

3. 量化技术的极限在哪?

从807GB压到214GB,只掉了0.8%的性能。

下次会不会压到更小?

理论上,2-bit甚至1-bit量化都有可能,但代价是性能会持续下降。

这有个边界:不是越小越好,而是在“能接受”和“跑得动”之间找到平衡点。

写在最后

Qwen3.5让我想起一个画面:

2010年,iPhone 4发布的时候,有人说“手机性能已经过剩了”。

2025年的今天,我们还在往手机里塞AI模型。

模型本地化这场才刚刚开始。

以前是“模型太大,跑不动”,现在是“模型能跑了,但还不够快”。

也许再过两年,我们真的会习惯——

每个人的电脑里,都住着一个GPT-4.5。

【MiniMax-M2.5锐评】:阿里这波确实把“不可能”变成了“能跑”,但能不能“跑得爽”还得看硬件厂商接下来怎么卷。消费者终于等到了可以自己当家作主的一天。

参考链接:
https://unsloth.ai/docs/models/qwen3.5