显存自由了？Unsloth 突袭 Qwen3.5，微调门槛被砍到了脚踝

说实话，看到 Qwen3.5-35B-A3B 这个 MoE 大模型只需要 74GB 显存就能跑 bf16 LoRA 训练，我是有点惊讶的。

要知道，以前动不动就是几万块的显卡集群起步，现在 Unsloth 这一波操作，直接把显存占用砍了一半，速度还比 HuggingFace 的 FA2 快了 1.5 倍。

AI配图

这哪里是更新文档，简直是把“显卡自由”的门票塞进了手里。

Unsloth Logo

显存刺客变乖了？

这次更新覆盖了 Qwen3.5 全家桶，从 0.8B 的小弟到 122B 的巨无霸。

最离谱的是小参数模型，0.8B 版本微调只需要 3GB 显存。

这是什么概念？你那台吃灰的老旧游戏本，或者随便一块亮机卡，可能都能跑起来。哪怕是 4B 版本，也就 10GB 显存，这门槛低得简直像是在做慈善。

Unsloth 官方甚至直接甩出了免费的 Google Colab 笔记本，专门针对 0.8B、2B 和 4B 这些小模型。

对于手里没几张 A100 的个人开发者或者小团队来说，这绝对是利好消息。不用再去挤公有资源的队列，本地就能把模型训起来。

疯狂的性能释放

如果你手里硬件稍微硬一点，比如搞到了 A100，那玩法就更多了。

Unsloth 针对 Qwen3.5 的 MoE（混合专家）模型做了特别优化。注意了，这里有个数据很夸张：MoE 训练速度提升了 12 倍，显存还少了 35%，上下文长度能拉长 6 倍。

这意味着什么？

意味着以前跑一个模型需要喝三杯咖啡的时间，现在可能还没等咖啡凉透就跑完了。

而且，这次 Qwen3.5 支持多达 201 种语言的多语言微调。这对于那些想做本地化应用、出海应用的开发者来说，简直是省了几个亿的翻译费。

有意思的是，Unsloth 还特别提醒：如果你想保留模型的“推理能力”，在训练数据里至少要保留 75% 的推理风格样本。

这其实是个很细节的点，说明现在的模型微调已经不是简单的“死记硬背”，而是要教它“怎么思考”。

MoE 模型的“双刃剑”

不过，这里有个反直觉的“坑”。

大家都喜欢用 QLoRA（4-bit 量化）来省显存，对吧？毕竟显存就是钱。但 Unsloth 在文档里把桌子掀了：不推荐对 Qwen3.5 的 MoE 模型做 QLoRA 训练。

不管你是 MoE 架构还是密集架构，都别用 4-bit。

理由是量化差异比平时要大。换句话说，你想省钱省显存，结果把模型训傻了，得不偿失。

官方的建议很直接：老老实实用 bf16 LoRA 或者全量微调（FFT）。

虽然全量微调显存会翻 4 倍，但至少模型是健康的。对于 Qwen3.5-122B-A10B 这种大家伙，bf16 LoRA 需要 256GB 显存，这确实不是闹着玩的，得多卡并行。

所以，个人玩家还是老老实实玩 0.8B 到 9B 的版本吧，那个才是真正的“甜点区”。

视觉与文本的混搭

除了纯文本，Qwen3.5 是个“因果语言模型加视觉编码器”，也就是我们说的多模态 VLM。

Unsloth 这次对视觉微调的支持也相当到位。

你可以自己选，是只微调视觉层，还是只微调语言层，或者是注意力层、MLP 层。这种“菜单式”的微调选项，给了开发者极大的自由度。

你可以把模型训练成一个只看图说话的机器，或者是一个懂图片的逻辑大师。

甚至，它还支持多图微调。

Unsloth Logo

这就很有意思了，以前微调大模型是炼丹，现在更像是搭积木。

微调还是不微调，这是个问题

虽然技术门槛在降低，但社区里的争论却没停过。

有开发者就直言不讳：现在的 LLM 这么强，加上 RAG（检索增强生成）和巨大的上下文窗口，微调是不是已经过时了？

毕竟，强提示词加上几轮示例，很多时候就能搞定复杂任务，费劲巴拉地微调一圈，最后提升的效果可能还没调参来得明显。

还有人在担心 Qwen 团队的人事变动，怕这种“开源的好日子”不多了。

但我个人觉得，微调并没有死，它只是换了个活法。

比如在边缘设备上，像 NVIDIA Jetson 这种只有 15W 功耗的设备，你不可能云端调用大模型，必须微调一个小模型塞进去跑。这种场景，RAG 救不了你，只有微调过的轻量级模型才是救命稻草。

AI配图

Unsloth 这一波更新，其实就是给这些“非主流”场景开了个绿灯。

你可以把微调好的模型导出成 GGUF 格式，直接扔给 llama.cpp 或者 Ollama 跑，甚至推到 Hugging Face 上分享。

只要你的显卡够用，剩下的就是想象力了。

至于 vLLM 用户，记得等 0.170 版本，现在的 0.16.0 是不支持的。

AI配图

技术总是在进步，门槛也总是在降低。

以前觉得遥不可及的大模型微调，现在可能只需要一个下午、一块显卡和一杯咖啡。

这难道不是最好的时代吗？

【glm-4.7锐评】：：
显存省了，但脑子还得自己长，别指望微调能解决所有问题。

参考链接：
https://unsloth.ai/docs/models/qwen3.5/fine-tune