你敢信?现在一台MacBook,能跑350亿参数的大模型了。

不是云端,不是API,就是在你桌子上这台电脑里。本地运行,断网也能用,隐私不外泄——而且速度比以前快了好几倍。

AI配图

Ollama前几天放了个预览版,把自己的底层引擎换成了苹果的MLX框架。这一换,直接把苹果芯片的潜力给榨干了。

苹果芯片这次真的不一样了

Ollama是这两年最火的本地大模型运行工具之一。之前它在Mac上跑模型,本质上是调用llama.cpp——相当于借道而行,多少有点憋屈。

现在不一样了。Ollama直接上了苹果的MLX框架,这是苹果专门为自家芯片打造的机器学习底层。配合M5系列新品的GPU神经加速器,预填充速度直接飙到1851 token/s,生成速度134 token/s。

这是什么概念?你问一个问题,模型几乎瞬间就开始回答你。不再是那种“正在思考...”转圈圈转半天的体验。

而且这次还支持了NVFP4格式。简单说,就是用更少的内存,占更少的存储,还能保持模型的回答质量。350亿参数的模型,在32GB统一内存的Mac上就能跑——这在以前想都不敢想。

本地AI为什么突然香了?

有意思的是,热评里几乎都在说同一件事:端侧AI是未来

“用户更喜欢本地模型。没有隐私问题,不用联网,不用看API脸色,不用担心服务商改价。”

确实,云端API看着方便,但烧钱也是真的快。企业级调用一次就是一笔账,个人开发者更是肉疼。而本地跑模型,一次投入,后续白嫖——啊不,持续使用。

AI配图

再加上隐私这个事儿。现在谁敢把敏感数据往云上扔?本地模型不存在这个问题。你的代码、你的文档、你的商业机密,全程不离本机。

还有一点容易被忽略:省电。数据中心的GPU集群,那电量烧起来嚇死人。本地跑模型,功耗至少低一个数量级。

但别高兴太早

话又说回来,热评里也有清醒的声音。

有人直接问:为什么还有人用Ollama?Lemonade或者直接用llama.cpp,优化得更好,也一样简单。

有用户实测,在M4 Max上跑推荐模型,响应时间6到25秒不等——这还是在他的场景下。更多人关心的是:32GB内存以下的Mac怎么办?总不能人人都是64GB顶配吧。

而且说实话,本地模型的性能天花板,目前还是追不上云端。那些几百亿参数的顶级模型,真要硬刚,还是得靠数据中心的大集群。

所以这波到底意味着什么?

我的看法是:Ollama+MLX这个组合,不是要取代云端AI,而是把端侧AI的可用性往前推了一大步

以前本地跑大模型,更多是极客玩具。现在,它真的能干活了。写代码、做个人助理、处理日常文档——这些场景完全够用。

AI配图

而且别忘了,这只是预览版。Ollama自己说,后续还要支持更多模型架构。苹果M5芯片才刚出,NVIDIA也在那边持续优化NVFP4。

一切才刚刚开始。


【MiniMax-M2.5锐评】:本地AI这场仗,才刚吹响冲锋号。

参考链接:
https://ollama.com/blog/mlx