云算力的护城河,被一行代码凿穿了

16万次围观,978个赞。Georgi Gerganov只发了一句话,本地AI圈子直接炸了。

llama.cpp正式支持MTP,Qwen3.6系列模型本地推理速度,直接翻倍。

没有发布会,没有PPT画饼。一个PR合并,一次底层架构的暴力升级。老实讲,这种“闷声干大事”的节奏,才是开源社区最迷人的地方。

过去我们总说,本地跑大模型是极客的玩具。卡顿、发热、显存爆炸。但今天,这条护城河被硬生生填平了一半。

你的RTX 4070,甚至2017年的老古董,突然又能打了。

别被学术词唬住,MTP就是让AI学会抢答

Multi Token Prediction,多Token预测。名字听着硬核,逻辑其实很粗暴。

AI配图

传统大模型生成文本,是一个字一个字往外蹦。像老牛拉车,稳,但慢。

MTP的玩法是:让模型一次猜多个词。 猜对了,直接输出;猜错了,回滚重试。

这次由Aman Gupta主导的开发,直接把MTP头塞进了llama.cpp。同一个GGUF文件加载,独立的KV缓存,自动触发。不用额外分发模型文件,开箱即用。

数据不会骗人。在DGX Spark的实测里,3个草稿Token的稳定接受率卡在75%左右。

这意味着什么?基准速度直接拉升2倍以上。

跑Python代码,接受率83%,速度飙到26.4 tok/s。做事实问答,接受率干到99.4%,47.7 tok/s的吞吐量,已经摸到了实时对话的门槛。

个人觉得,这不仅仅是优化。这是本地推理从“能用”到“好用”的临界点。

老硬件的狂欢,藏着环境级AI的野心

技术突破的爽感,往往藏在评论区的烟火气里。

有人拿着RTX 4070直呼等太久了。有人翻出2017年的老电脑,喊出Game Changer。更有人已经把llama.cpp加Qwen3塞进Tauri桌面应用,偷偷跑了几个月。

“每一次吞吐量的跃升,都在把‘足够快’的标准,往消费级硬件里推进一步。‘太慢’的借口,正在越来越小。”

这话说到点子上了。

我们为什么执着于本地AI?隐私、离线、零延迟、不被供应商卡脖子。当速度不再是短板,环境级AI的拼图就补齐了最关键的一块。

它不再需要你盯着进度条发呆。它可以藏在你的编辑器里、你的本地知识库中、甚至你的智能家居后台。无感,但无处不在。

有意思的是,开源社区的接力棒传得飞快。HedyAI已经直接Rebase了代码,Beta用户早就用上了。生态的飞轮,一旦转起来就停不下来。

别急着吹,代价早就标好了

速度翻倍,听起来像魔法。但搞工程的都懂,性能从来不是白给的,它只是被转移了。

PR文档里写得明明白白:开启MTP后,Prompt处理速度会掉。原因很硬核,设备到主机的嵌入传输成了新瓶颈。

并行解码支持了,但还没完全优化。

更现实的坑在社区里已经爆出来了。有开发者反馈:MTP头在Tool Calling场景下,错误率明显上升。 还有人在问,这玩意儿是不是用上下文长度换速度?Ubuntu Vulkan的预编译版什么时候跟进?

说实话,这些吐槽太正常了。

草稿模型猜词,本质是概率游戏。代码和事实问答有固定范式,接受率自然高。一旦遇到需要严密逻辑链的工具调用,或者长文本的复杂指令,抢答就容易翻车。

这不是缺陷,是技术演进的必经阵痛。 现在的MTP像一把刚开刃的快刀,锋利,但需要磨合。D2H传输要优化,并行策略要重写,工具调用的对齐得重新做。

但至少,方向对了。云端不是唯一解,本地也不是备胎。

本地AI的终局,是重新定义算力

llama.cpp这次更新,扯下了一层窗户纸。

过去我们迷信万卡集群,迷信云端API的无限算力。但Qwen3.6加MTP的组合证明:消费级硬件的潜力,远没被榨干。

当27B、35B的模型能在普通显卡上跑出流畅的对话体验,云厂商的算力税就该重新算算了。

当然,本地AI不会杀死云端。重度训练、超大规模并发、企业级合规,依然是云的地盘。但边缘侧的推理战场,规则已经变了。

未来的AI架构,一定是云训边推的混合体。 云端负责造大脑,本地负责长神经。

你的电脑,不再只是终端。它本身就是一个微型算力中心。

那么问题来了。当本地推理的速度和精度彻底追平云端API,你还会愿意为每一个Token付费吗?

当AI真正变成像水电一样的本地基础设施,现在的SaaS商业模式,还能撑多久?

【锐评】:开源社区不画饼只交代码,MTP让本地推理速度翻倍,但工具调用翻车和PP降速提醒我们:性能守恒定律从未失效,快刀还需慢磨。

参考链接:
https://x.com/ggerganov/status/2056391115469689330