12倍提速，显存狂降：MoE 模型训练的“平民时刻”到了

12.8GB 显存能干什么？

以前，这个容量可能只够你跑跑推理，或者勉强微调一个小参数模型。如果你想碰一下 DeepSeek V3 这种级别的 MoE（混合专家模型），那基本是白日做梦——要么爆显存，要么慢到让你怀疑人生。

但现在，UnslothAI 说：没问题，这事儿能成。

他们发布了一组新的 Triton kernels，声称可以让 MoE 模型的训练速度提升 12 倍，同时显存占用减少 35%。

这不是PPT里的画饼，而是实打实能跑在本地显卡上的代码。

说实话，看到这个数字的时候，我第一反应是：这帮人是把显卡的潜力给榨干了吗？

MoE 的“富贵病”，终于有人治了

MoE（Mixture of Experts）架构最近火得一塌糊涂。

AI配图

DeepSeek、Qwen3、GLM……这些大模型背后的明星，几乎都离不开 MoE。它的逻辑很简单：与其让一个“全能”专家处理所有问题，不如找一群“专才”，每个问题只挑最相关的 8 个专家来回答。

这招很聪明，但也带来了一个“富贵病”：显存焦虑。

传统的微调方法，比如 LoRA，虽然能省点事儿，但遇到 MoE 就抓瞎了。因为 MoE 里面有 E 个专家并行存在，哪怕你只激活了 k 个，传统的 LoRA 还是得给所有 E 个专家都配上“适配器”。

这就好比请客吃饭，明明只来了 8 个人，你却按 128 人的标准备菜。

这谁顶得住？

素材里那个 Qwen3-30B-A3B 的例子就很典型。它有 128 个专家，每个专家都要加 LoRA 参数，显存占用瞬间就上去了。

Unsloth 这次做的，就是一场精准的“外科手术”。

AI配图

只给干活的人发工资

Unsloth 搞了个新花样，叫 Split LoRA。

他们的思路很直接：既然每个 Token 只会激活 k 个专家，那我为什么要把 LoRA 的权重矩阵全部算出来？

他们把 LoRA 拆成了两半。只有在路由器选中了某个专家的时候，才会去计算那个专家对应的 LoRA 部分。

这听起来像是废话，但在数学上，这完全是两码事。

素材里给了一堆复杂的公式，我帮你翻译一下：在常见的序列长度下（比如 16K 以下），这种稀疏计算的方式，在算力和显存带宽上都完暴传统的全量计算。

简单说，就是只给干活的人发工资，摸鱼的一分没有。

这不仅仅是省钱，这是在抢时间。

数据不讲谎，速度就是正义

光说不练假把式，我们直接看数据。

Unsloth 拿 Qwen3 模型做了测试，结果挺吓人。

在上下文长度只有 1024 的时候，Unsloth 比标准的 Transformers 库快了 1.37 倍。

这还不算什么，随着上下文拉长，优势呈指数级放大。

到了 8192 长度，速度直接快了 7.34 倍。

更有意思的是显存占用。

在 8192 长度下，标准库需要 73.80GB 显存，而 Unsloth 只需要 47.43GB，省下了 35.73%。

这意味着什么？

意味着你以前需要两张 A100 才能干的事儿，现在可能一张卡就能搞定；以前必须租云服务，现在放在本地机器上就能跑。

评论区里有人喊出了那句大实话：“12倍的训练速度，比任何政策都更能体现 AI 的民主化。”

我觉得这话没毛病。

顺手捡到的“宝藏”

除了 MoE 的大杀器，这次更新还有个不起眼但很实用的彩蛋。

Gemma-3 现在默认用上了 Flex-Attention。

这技术听着玄乎，效果却很直白：把显存复杂度从 O(N^2) 降到了 O(N)。

以前那种动不动就 OOM（Out of Memory）的情况，现在大概率不会发生了。

AI配图

素材里的数据显示，在 64K 这种超长上下文下，Gemma-3 的显存占用依然控制得很好。

老实讲，这种顺手优化的细节，比那些大口号更打动我。

Unsloth 这次还特意感谢了 Hugging Face 和 torchao 团队。

看到开源社区里这几家巨头这么和谐地“贴贴”，说实话，心里还是有点暖的。

算力霸权正在松动？

12.8GB 显存就能本地训练 gpt-oss，这事儿本身就有一种极强的象征意义。

它打破了某种“神话”——大模型训练不再是巨头实验室的专属玩具，也不再是只有拥有算力霸权的人才能玩的游戏。

当训练门槛被踩在脚下，剩下的就是创意的比拼了。

正如网友所说，这是 solo 开发者的“大规模解锁”。

我想，下一个颠覆性的 AI 应用，可能就诞生于某个只有一张消费级显卡的卧室里。

你准备好上车了吗？

参考链接：
https://x.com/UnslothAI/status/2021244131927023950