你敢信?3970亿参数,现在能在一台Mac上跑了。
就在上周,Alibaba发布了Qwen3.5。这不是普通的模型更新——397B参数的版本,性能对标Gemini 3 Pro、Claude Opus 4.5和GPT-5.2。
以前这种级别的模型,得用几十块GPU(价值几十万美元)才能跑起来。
现在?一块24GB显存的显卡+256GB内存,就能跑出25+ tokens/s。
这不是在变魔术,是量化技术真的到了这一步。
一个小故事
2023年之前,如果你想用顶级大模型,只有两条路:
- 给OpenAI/Anthropic交月费——GPT-4一个月20美元,Claude Opus得花更多
- 自己搭建算力集群——至少准备一台配备多张H100的服务器
普通人?不好意思,没得玩。
但就在最近几年,事情开始起变化。
Llama出来了,Mistral出来了,Qwen也出来了。
而Unsloth这家公司,专门做模型量化——把几百GB的模型压缩到几十GB,同时尽量不损失性能。
这次,他们拿到了Alibaba的"day zero access"(第一天就拿到了模型权限),然后用自研的Dynamic 2.0量化算法,把Qwen3.5做成了各种尺寸的GGUF文件。
3-bit版本:192GB内存就能跑
4-bit版本(MXFP4):256GB内存就能跑
8-bit版本:需要512GB
这意味着,
一个普通研究人员、一个独立开发者、甚至一个发烧友,都可以在自己家里跑“GPT-4.5级”模型。
Qwen3.5到底有多强?
先看下官方放出的基准测试成绩。
Qwen3.5-35B-A3B和27B、122B-A10B这几个中等尺寸的模型,在各项评测里已经相当能打。
而397B-A17B这个巨无霸,第三方测评机构用750个prompt的混合测试集(LiveCodeBench v6、MMLU Pro、GPQA、Math500)跑了一遍,结果是:
- 原始权重:81.3%准确率
- UD-Q4_K_XL(4-bit动态量化):80.5%(仅掉0.8分,相对误差增加4.3%)
- UD-Q3_K_XL(3-bit动态量化):80.7%
quantization后只掉了不到1个点,但体积从~807GB暴降到~214GB。
"you can sharply reduce memory footprint (~500 GB less) with little to no practical loss on the tested tasks"
官方自己说的:几乎不掉性能,但省了500GB空间。
它为什么这么特别?
Qwen3.5有几个让我觉得挺有意思的创新:
1. 混合推理模式(Thinking + Non-thinking)
这是它和传统模型最大的不同。
你可以让它“思考”——开启推理模式,处理复杂问题时会一步步推演。
也可以关闭它——用非推理模式,追求速度和简洁。
就像一个员工,你可以让他慢慢想(thinking模式),也可以让他直接给答案(non-thinking模式)。
不同任务用不同模式,效果完全不同。
官方给出的参数建议:
思考模式:
- 通用任务:temperature=1.0
- 精确编程任务:temperature=0.6
非思考模式:
- 通用任务:temperature=0.7
- 推理任务:temperature=1.0
2. 201种语言,256K上下文
支持201种语言这个数字有点夸张,但重点是256K上下文。
这是什么概念?
相当于可以一次输入约100万字的文本。
丢一本《红楼梦》进去让它总结,完全没问题。
3. 从0.8B到397B,想怎么跑怎么跑
Qwen3.5系列覆盖了从最小0.8B到最大397B的完整参数谱系:
- Small系列:0.8B、2B、4B、9B(默认关闭推理能力)
- Medium系列:27B、35B-A3B
- Large系列:122B-A10B
- Ultra系列:397B-A17B
这意味着:
- 一台12GB内存的电脑,就能跑9B模型
- 一台22GB内存的Mac,能跑35B-A3B
- 一台192GB内存的怪物机器,能跑397B的3-bit版本
- 一台256GB内存的M3 Ultra Mac,能跑397B的4-bit版本
总有一款适合你。
真实用户怎么说?
光看官方宣传不够,我们来看看已经用上的老外怎么说:
"Running 3.5 9B on my ASUS 5070ti 16G with lm studio gives a stable ~100 tok/s. This outperforms the majority of online llm services and the actual quality of output matches the benchmark. This model is really something, first time ever having usable model on consumer-grade hardware."
一块5070ti显卡,稳定100 tokens/秒。比大多数在线API服务都快,第一次在消费级硬件上用到这么好用的模型。
"I'm running Qwen3.5:0.8b locally on an Orangepi Zero 2w using llama.cpp, runs just fine on cpu only."
一块几百块的OrangePi开发板,就能跑0.8B模型。这已经便宜到有点离谱了。
"My private benchmarks... qwen3.5:35b-a3b-q4_K_M (thinking) -- 90.0%"
有用户用DeepSeek API做基准,Qwen3.5-35B的量化版本能达到92.5%(Q8_0)和90%(Q4_K_M)的水平。
但也有不同的声音:
"I have the 35GB model running on a PC with 64GB... Ask a question, go drink a coffee."
提问之后可以去喝杯咖啡。64GB内存的机器上,35B模型跑起来还是慢。
"speed is a problem, and likely to remain a problem for the foreseeable future."
——速度是个问题,而且在可预见的未来可能一直是个问题。
这就是现实:模型能跑了,但不代表跑得爽。
一个容易被忽略的点
有意思的是,Qwen3.5 Small系列(0.8B、2B、4B、9B)默认关闭了推理能力。
要开启thinking模式,需要手动加参数:
--chat-template-kwargs '{"enable_thinking":true}'
而Medium和Large系列默认是开启的。
这说明什么?
小模型强行开推理,性价比可能不高。推理是个耗资源的操作,参数不够硬塞进去可能反而跑不动。
官方建议:9B及以下的模型,如果跑起来吃力,就用非推理模式吧。
这意味着什么?
我在想几个问题:
1. 大模型正在变成“基础设施”
以前我们讨论的是“AI会不会取代人类工作”,现在更现实的问题是:每个人是否都需要一个本地模型?
当模型可以跑在你自己电脑上的时候——
- 隐私问题不存在了(数据不用上传)
- 成本问题不存在了(一次性投入,终身使用)
- 断网也能用
2. 消费级硬件的军备竞赛
Qwen3.5出来之后,我估计接下来会出现一批专门为本地大模型优化的硬件。
已经有用户在问:
"Will it run on an old 4xV100 Tesla rig?"
一块4卡V100的“垃圾”服务器,现在也能派上用场了。
3. 量化技术的极限在哪?
从807GB压到214GB,只掉了0.8%的性能。
下次会不会压到更小?
理论上,2-bit甚至1-bit量化都有可能,但代价是性能会持续下降。
这有个边界:不是越小越好,而是在“能接受”和“跑得动”之间找到平衡点。
写在最后
Qwen3.5让我想起一个画面:
2010年,iPhone 4发布的时候,有人说“手机性能已经过剩了”。
2025年的今天,我们还在往手机里塞AI模型。
模型本地化这场才刚刚开始。
以前是“模型太大,跑不动”,现在是“模型能跑了,但还不够快”。
也许再过两年,我们真的会习惯——
每个人的电脑里,都住着一个GPT-4.5。
【MiniMax-M2.5锐评】:阿里这波确实把“不可能”变成了“能跑”,但能不能“跑得爽”还得看硬件厂商接下来怎么卷。消费者终于等到了可以自己当家作主的一天。
参考链接:
https://unsloth.ai/docs/models/qwen3.5