速度直接翻倍，老显卡原地复活：llama.cpp这波更新，让本地AI彻底不装了

云算力的护城河，被一行代码凿穿了

16万次围观，978个赞。Georgi Gerganov只发了一句话，本地AI圈子直接炸了。

llama.cpp正式支持MTP，Qwen3.6系列模型本地推理速度，直接翻倍。

没有发布会，没有PPT画饼。一个PR合并，一次底层架构的暴力升级。老实讲，这种“闷声干大事”的节奏，才是开源社区最迷人的地方。

过去我们总说，本地跑大模型是极客的玩具。卡顿、发热、显存爆炸。但今天，这条护城河被硬生生填平了一半。

你的RTX 4070，甚至2017年的老古董，突然又能打了。

Multi Token Prediction，多Token预测。名字听着硬核，逻辑其实很粗暴。

AI配图

传统大模型生成文本，是一个字一个字往外蹦。像老牛拉车，稳，但慢。

MTP的玩法是：让模型一次猜多个词。 猜对了，直接输出；猜错了，回滚重试。

这次由Aman Gupta主导的开发，直接把MTP头塞进了llama.cpp。同一个GGUF文件加载，独立的KV缓存，自动触发。不用额外分发模型文件，开箱即用。

数据不会骗人。在DGX Spark的实测里，3个草稿Token的稳定接受率卡在75%左右。

这意味着什么？基准速度直接拉升2倍以上。

跑Python代码，接受率83%，速度飙到26.4 tok/s。做事实问答，接受率干到99.4%，47.7 tok/s的吞吐量，已经摸到了实时对话的门槛。

个人觉得，这不仅仅是优化。这是本地推理从“能用”到“好用”的临界点。

技术突破的爽感，往往藏在评论区的烟火气里。

有人拿着RTX 4070直呼等太久了。有人翻出2017年的老电脑，喊出Game Changer。更有人已经把llama.cpp加Qwen3塞进Tauri桌面应用，偷偷跑了几个月。

“每一次吞吐量的跃升，都在把‘足够快’的标准，往消费级硬件里推进一步。‘太慢’的借口，正在越来越小。”

这话说到点子上了。

我们为什么执着于本地AI？隐私、离线、零延迟、不被供应商卡脖子。当速度不再是短板，环境级AI的拼图就补齐了最关键的一块。

它不再需要你盯着进度条发呆。它可以藏在你的编辑器里、你的本地知识库中、甚至你的智能家居后台。无感，但无处不在。

有意思的是，开源社区的接力棒传得飞快。HedyAI已经直接Rebase了代码，Beta用户早就用上了。生态的飞轮，一旦转起来就停不下来。

速度翻倍，听起来像魔法。但搞工程的都懂，性能从来不是白给的，它只是被转移了。

PR文档里写得明明白白：开启MTP后，Prompt处理速度会掉。原因很硬核，设备到主机的嵌入传输成了新瓶颈。

并行解码支持了，但还没完全优化。

更现实的坑在社区里已经爆出来了。有开发者反馈：MTP头在Tool Calling场景下，错误率明显上升。 还有人在问，这玩意儿是不是用上下文长度换速度？Ubuntu Vulkan的预编译版什么时候跟进？

说实话，这些吐槽太正常了。

草稿模型猜词，本质是概率游戏。代码和事实问答有固定范式，接受率自然高。一旦遇到需要严密逻辑链的工具调用，或者长文本的复杂指令，抢答就容易翻车。

这不是缺陷，是技术演进的必经阵痛。 现在的MTP像一把刚开刃的快刀，锋利，但需要磨合。D2H传输要优化，并行策略要重写，工具调用的对齐得重新做。

但至少，方向对了。云端不是唯一解，本地也不是备胎。

llama.cpp这次更新，扯下了一层窗户纸。

过去我们迷信万卡集群，迷信云端API的无限算力。但Qwen3.6加MTP的组合证明：消费级硬件的潜力，远没被榨干。

当27B、35B的模型能在普通显卡上跑出流畅的对话体验，云厂商的算力税就该重新算算了。

当然，本地AI不会杀死云端。重度训练、超大规模并发、企业级合规，依然是云的地盘。但边缘侧的推理战场，规则已经变了。

未来的AI架构，一定是云训边推的混合体。 云端负责造大脑，本地负责长神经。

你的电脑，不再只是终端。它本身就是一个微型算力中心。

那么问题来了。当本地推理的速度和精度彻底追平云端API，你还会愿意为每一个Token付费吗？

当AI真正变成像水电一样的本地基础设施，现在的SaaS商业模式，还能撑多久？

【锐评】：开源社区不画饼只交代码，MTP让本地推理速度翻倍，但工具调用翻车和PP降速提醒我们：性能守恒定律从未失效，快刀还需慢磨。

参考链接：
https://x.com/ggerganov/status/2056391115469689330