苹果M4最强算力被“封印”？一篇论文，撕开了ARM SME的真相

说实话，看到这个数据的时候我稍微愣了一下。

在苹果自家的地盘上，用开源代码把苹果官方闭源的数学库给“干”翻了？

AI配图

这不是段子，是刚出炉的硬核研究。

就在大家都在盯着英伟达的显卡算力卷生卷死时，一群研究人员把目光投向了苹果 M4 Pro 芯片里的那个不起眼的功能——ARM SME。

他们搞出了一个叫 MpGEMM 的库，结果在实测中，它比苹果官方优化的 Apple Accelerate 还要快 23%。更夸张的是，对比其他开源竞品，它的性能提升最高达到了 5.7倍。

这哪里是优化，这简直是在给 M4 芯片“解锁超频”。

官方的“保守”，成了开发者的机会

AI配图

先科普一下背景。

GEMM（通用矩阵乘法）是高性能计算和深度学习的“心脏”。无论是跑 LLaMA 还是 DeepSeek，底层的运算全是它。

为了搞定这个重活，ARM 搞了个 SME (Scalable Matrix Extension)，专门用来加速矩阵运算。苹果 M4 系列芯片就搭载了这玩意儿。硬件有了，软件却跟不上。

目前市面上的方案，要么是苹果官方的 Apple Accelerate，闭源、神秘、只能在苹果平台上跑；要么就是 OpenBLAS、LIBXSMM 这些开源方案。

问题在于，这些现有的库都没能真正吃透 SME 的潜力，尤其是在处理大矩阵的时候，简直像是在开法拉利送外卖——性能严重浪费。

我个人觉得，这可能是厂商的一种“策略性保守”。只要够用，就没必要把硬件压榨到极限。但学术界不这么想。

900GB/s vs 230GB/s：差距就在这里

这篇论文的作者们干了件很枯燥但很要命的事：微基准测试。

他们拿着放大镜去观察 SME 的每一个毛孔，结果发现了两个巨大的性能瓶颈：缓存利用率低，以及内存带宽被浪费。

现有的开源库大多采用简单的三层嵌套循环，这种设计根本没法匹配 SME 单元共享的 L2 缓存。

这就好比你去图书馆搬书，一次只拿一本，跑断腿也搬不完。数据不会骗人。

测试显示，如果能成组加载四个可扩展向量寄存器，内存带宽能飙到 900 GB/s。

而现有的微内核如果只用单寄存器加载，带宽只有可怜的 230 GB/s。

这中间差了将近 4倍。

这就解释了为什么之前的库跑不快——它们根本没把“油门”踩到底。

撕开伪装：MpGEMM 是怎么做到的？

MpGEMM 的思路其实很清晰，甚至可以说有点“暴力美学”。既然知道瓶颈在缓存和带宽，那就针对性地重构。

首先，他们搞了一个分析模型，把大矩阵切割成刚好能塞进共享 L2 缓存的小块，彻底解决了缓存不命中的问题。

其次，在数据打包上，他们用了“即时转置”和“第一轮在线打包”策略。听着很绕，其实就是把数据排列得整整齐齐，让 CPU 读起来不费劲。

最有意思的是他们的微内核设计。

他们不搞虚的，直接把所有可用的 ZA 瓦片寄存器全部利用起来，每次加载都填满四个向量寄存器。这就是赤裸裸的“压榨”。

为了验证效果，他们在 Apple M4 Pro 上跑了 DeepSeek 和 LLaMA 的真实工作负载。

结果刚才也说了，平均比苹果官方库快 1.23 倍，比 OpenBLAS 快 5.7 倍。

AI配图

老实讲，能在官方库的手里抢下 20% 以上的性能提升，这在底层系统优化领域简直就是“神迹”。

深藏功与名：DeepSeek 的幕后推手？

看到 DeepSeek 的名字出现在测试列表里，我一点也不意外。毕竟，业内早就公认，DeepSeekMath-V2 是首个开源的 IMO 金牌级数学大模型，在代数、几何等五大类别上全面碾压 GPT-5-Thinking-High。

这种级别的数学能力，背后除了算法的精妙，对底层算力的压榨也是到了极致的。

有意思的是，DeepSeek 之前就通过自动化标注流程取代人工，结合 GRPO 强化学习搞定了数学竞赛的瓶颈。

现在，MpGEMM 这种针对底层硬件的极致优化，恰恰是这类大模型高效运行的基石。可以说，好的硬件需要好的软件来驾驭，而好的软件，正在让原本“封印”的算力重见天日。

我们能从 NVIDIA 手中夺回 DRAM 吗？

这篇论文在 Hacker News 上引发了热议。

有个评论特别有意思，他说：“这将把我们从 NVIDIA 的怪物手中拯救出来！然后我们可以拿回我们的 DRAM！！！”

虽然这话有点夸张，但道出了很多人的心声。

大家受够了昂贵的专用显卡，受够了被闭源生态卡脖子。ARM SME 的出现，以及 MpGEMM 这种高效的开源实现，让我们看到了另一种可能：

或许，未来的 AI 算力，不一定非得在数据中心里，它可能就在你桌面的 MacBook 里，甚至在你手里的手机里。

当然，也有人质疑为什么没跟 BLIS 库做对比。

这确实是个遗憾，但瑕不掩瑜。

当开源社区开始把芯片厂商都没完全挖掘的潜力逼出来时，这场游戏才刚刚变得好玩起来。

硬件已经摆在那里了，剩下的，就看谁能把它“玩”出花了。

参考链接：
https://arxiv.org/abs/2512.21473