本地AI杀疯了！苹果芯片跑大模型，性能直接起飞

你敢信？现在一台MacBook，能跑350亿参数的大模型了。

不是云端，不是API，就是在你桌子上这台电脑里。本地运行，断网也能用，隐私不外泄——而且速度比以前快了好几倍。

AI配图

Ollama前几天放了个预览版，把自己的底层引擎换成了苹果的MLX框架。这一换，直接把苹果芯片的潜力给榨干了。

苹果芯片这次真的不一样了

Ollama是这两年最火的本地大模型运行工具之一。之前它在Mac上跑模型，本质上是调用llama.cpp——相当于借道而行，多少有点憋屈。

现在不一样了。Ollama直接上了苹果的MLX框架，这是苹果专门为自家芯片打造的机器学习底层。配合M5系列新品的GPU神经加速器，预填充速度直接飙到1851 token/s，生成速度134 token/s。

这是什么概念？你问一个问题，模型几乎瞬间就开始回答你。不再是那种“正在思考...”转圈圈转半天的体验。

而且这次还支持了NVFP4格式。简单说，就是用更少的内存，占更少的存储，还能保持模型的回答质量。350亿参数的模型，在32GB统一内存的Mac上就能跑——这在以前想都不敢想。

有意思的是，热评里几乎都在说同一件事：端侧AI是未来。

“用户更喜欢本地模型。没有隐私问题，不用联网，不用看API脸色，不用担心服务商改价。”

确实，云端API看着方便，但烧钱也是真的快。企业级调用一次就是一笔账，个人开发者更是肉疼。而本地跑模型，一次投入，后续白嫖——啊不，持续使用。

AI配图

再加上隐私这个事儿。现在谁敢把敏感数据往云上扔？本地模型不存在这个问题。你的代码、你的文档、你的商业机密，全程不离本机。

还有一点容易被忽略：省电。数据中心的GPU集群，那电量烧起来嚇死人。本地跑模型，功耗至少低一个数量级。

话又说回来，热评里也有清醒的声音。

有人直接问：为什么还有人用Ollama？Lemonade或者直接用llama.cpp，优化得更好，也一样简单。

有用户实测，在M4 Max上跑推荐模型，响应时间6到25秒不等——这还是在他的场景下。更多人关心的是：32GB内存以下的Mac怎么办？总不能人人都是64GB顶配吧。

而且说实话，本地模型的性能天花板，目前还是追不上云端。那些几百亿参数的顶级模型，真要硬刚，还是得靠数据中心的大集群。

我的看法是：Ollama+MLX这个组合，不是要取代云端AI，而是把端侧AI的可用性往前推了一大步。

以前本地跑大模型，更多是极客玩具。现在，它真的能干活了。写代码、做个人助理、处理日常文档——这些场景完全够用。

AI配图

而且别忘了，这只是预览版。Ollama自己说，后续还要支持更多模型架构。苹果M5芯片才刚出，NVIDIA也在那边持续优化NVFP4。

一切才刚刚开始。

【MiniMax-M2.5锐评】：本地AI这场仗，才刚吹响冲锋号。

参考链接：
https://ollama.com/blog/mlx