说实话,看到这个数据的时候我稍微愣了一下。

在苹果自家的地盘上,用开源代码把苹果官方闭源的数学库给“干”翻了?

AI配图

这不是段子,是刚出炉的硬核研究。

就在大家都在盯着英伟达的显卡算力卷生卷死时,一群研究人员把目光投向了苹果 M4 Pro 芯片里的那个不起眼的功能——ARM SME。

他们搞出了一个叫 MpGEMM 的库,结果在实测中,它比苹果官方优化的 Apple Accelerate 还要快 23%。更夸张的是,对比其他开源竞品,它的性能提升最高达到了 5.7倍

这哪里是优化,这简直是在给 M4 芯片“解锁超频”。

官方的“保守”,成了开发者的机会

AI配图

先科普一下背景。

GEMM(通用矩阵乘法)是高性能计算和深度学习的“心脏”。无论是跑 LLaMA 还是 DeepSeek,底层的运算全是它。

为了搞定这个重活,ARM 搞了个 SME (Scalable Matrix Extension),专门用来加速矩阵运算。苹果 M4 系列芯片就搭载了这玩意儿。硬件有了,软件却跟不上。

目前市面上的方案,要么是苹果官方的 Apple Accelerate,闭源、神秘、只能在苹果平台上跑;要么就是 OpenBLASLIBXSMM 这些开源方案。

问题在于,这些现有的库都没能真正吃透 SME 的潜力,尤其是在处理大矩阵的时候,简直像是在开法拉利送外卖——性能严重浪费。

我个人觉得,这可能是厂商的一种“策略性保守”。只要够用,就没必要把硬件压榨到极限。但学术界不这么想。

900GB/s vs 230GB/s:差距就在这里

这篇论文的作者们干了件很枯燥但很要命的事:微基准测试。

他们拿着放大镜去观察 SME 的每一个毛孔,结果发现了两个巨大的性能瓶颈:缓存利用率低,以及内存带宽被浪费

现有的开源库大多采用简单的三层嵌套循环,这种设计根本没法匹配 SME 单元共享的 L2 缓存。

这就好比你去图书馆搬书,一次只拿一本,跑断腿也搬不完。数据不会骗人。

测试显示,如果能成组加载四个可扩展向量寄存器,内存带宽能飙到 900 GB/s

而现有的微内核如果只用单寄存器加载,带宽只有可怜的 230 GB/s

这中间差了将近 4倍

这就解释了为什么之前的库跑不快——它们根本没把“油门”踩到底。

撕开伪装:MpGEMM 是怎么做到的?

MpGEMM 的思路其实很清晰,甚至可以说有点“暴力美学”。既然知道瓶颈在缓存和带宽,那就针对性地重构。

首先,他们搞了一个分析模型,把大矩阵切割成刚好能塞进共享 L2 缓存的小块,彻底解决了缓存不命中的问题。

其次,在数据打包上,他们用了“即时转置”和“第一轮在线打包”策略。听着很绕,其实就是把数据排列得整整齐齐,让 CPU 读起来不费劲。

最有意思的是他们的微内核设计。

他们不搞虚的,直接把所有可用的 ZA 瓦片寄存器全部利用起来,每次加载都填满四个向量寄存器。这就是赤裸裸的“压榨”。

为了验证效果,他们在 Apple M4 Pro 上跑了 DeepSeek 和 LLaMA 的真实工作负载。

结果刚才也说了,平均比苹果官方库快 1.23 倍,比 OpenBLAS 快 5.7 倍。

AI配图

老实讲,能在官方库的手里抢下 20% 以上的性能提升,这在底层系统优化领域简直就是“神迹”。

深藏功与名:DeepSeek 的幕后推手?

看到 DeepSeek 的名字出现在测试列表里,我一点也不意外。毕竟,业内早就公认,DeepSeekMath-V2 是首个开源的 IMO 金牌级数学大模型,在代数、几何等五大类别上全面碾压 GPT-5-Thinking-High。

这种级别的数学能力,背后除了算法的精妙,对底层算力的压榨也是到了极致的。

有意思的是,DeepSeek 之前就通过自动化标注流程取代人工,结合 GRPO 强化学习搞定了数学竞赛的瓶颈。

现在,MpGEMM 这种针对底层硬件的极致优化,恰恰是这类大模型高效运行的基石。可以说,好的硬件需要好的软件来驾驭,而好的软件,正在让原本“封印”的算力重见天日。

我们能从 NVIDIA 手中夺回 DRAM 吗?

这篇论文在 Hacker News 上引发了热议。

有个评论特别有意思,他说:“这将把我们从 NVIDIA 的怪物手中拯救出来!然后我们可以拿回我们的 DRAM!!!”

虽然这话有点夸张,但道出了很多人的心声。

大家受够了昂贵的专用显卡,受够了被闭源生态卡脖子。ARM SME 的出现,以及 MpGEMM 这种高效的开源实现,让我们看到了另一种可能:

或许,未来的 AI 算力,不一定非得在数据中心里,它可能就在你桌面的 MacBook 里,甚至在你手里的手机里。

当然,也有人质疑为什么没跟 BLIS 库做对比。

这确实是个遗憾,但瑕不掩瑜。

当开源社区开始把芯片厂商都没完全挖掘的潜力逼出来时,这场游戏才刚刚变得好玩起来。

硬件已经摆在那里了,剩下的,就看谁能把它“玩”出花了。

参考链接:
https://arxiv.org/abs/2512.21473