显卡价格居高不下,想跑大模型?要么掏空钱包,要么去云端排队。

微软突然在 GitHub 上扔了个项目,名字叫 BitNet,号称能在本地 CPU 上跑 100B(1000亿)参数 的大模型。

image

这是什么概念?这意味着你不需要几万块的显卡,可能只需要一台普通的电脑,就能跑起来聪明的模型。

乘法变加法

BitNet 的核心卖点,就是这个看起来有点怪的 "1.58-bit" 量化技术。

普通的模型权重通常是 16-bit 甚至 32-bit 浮点数,计算起来那是相当吃算力。但 BitNet 把权重压缩到了极致,只剩下三个值:-1、0、1

你没看错,就三个数。

这意味着原本最消耗资源的矩阵乘法运算,直接变成了加法运算

评论里有位老哥解释得很到位:这就像生物大脑的抑制性突触,-1、0、1 正好对应了兴奋、抑制和无反应,生物效率确实高。

这种“三值化”的操作,直接把内存带宽的瓶颈给捅破了。按照项目描述,这能让 CPU 跑大模型的效率实现质的飞跃。

听起来是不是很美好?甚至有点像科幻小说?

标题党?评论区直接炸锅

image

但别急着激动,先看看 GitHub 上的讨论区。

那个最吸引眼球的 "100B Param"(1000亿参数),在评论区被喷惨了。

有用户直接开怼:为什么你要叫它 100B 参数模型?它根本就不是!他们只发布了一个 1B 和一个 2B 的模型。

原来,所谓的 "100B",只是这个推理框架声称支持的规模,并不是真的给你提供了一个训练好的 100B 模型让你下载。

这就像某汽车厂商宣传“极速可达 500km/h”,但实际上店里卖的车只能跑到 150,至于 500 那个版本?还在画饼阶段。

这波操作,属实是把“标题党”玩明白了。

不过,也有技术大牛指出,虽然模型没跟上,但这个工程思路值得注意:

如果在单核 CPU 上,对于 100B 级别的模型真能达到 5-7 tok/s 的速度,那确实是一个完全不同的计算范式。

效果像 GPT-2?这就有点尴尬了

更尴尬的还在后面。

既然没有 100B 的模型,那现成的 2B 模型效果怎么样呢?毕竟这才是咱们普通用户能摸得着的东西。

有热心网友实测后,给出了一个非常扎心的评价:

输出简直是灾难!完全是 GPT-2 级别的胡言乱语,整段整段地重复,还会反复编造同一个假的引用文献 (Jenkins, 2010)。

这就很搞笑了。

如果你跑出来的模型效果退化到了几年前的水平,那就算是在树莓派上能跑,又有什么实际意义呢?

我们追求的是“本地运行”,而不是“本地运行一个只会说胡话的人工智障”。

为什么巨头们都不跟?

更有意思的是行业反应。

BitNet 的概念其实很早就提出来了,甚至有人专门写博客分析过它的潜力。但直到现在,似乎并没有看到主流的大模型厂商(比如 Qwen、DeepSeek)大规模跟进这种“从头训练”的 1-bit 架构。

image

评论区里有人发出了灵魂拷问:

如果这东西真的那么革命性,你觉得 DeepSeek 或者 Qwen 这种创新狂魔会不赶紧用上吗?

毕竟,DeepSeek-v3 可是第一批搞大规模 FP8 训练的。

这就引出了一个很现实的问题:BitNet 这种架构,必须从零开始训练。你不能把现有的 Llama 拿来直接量化,得像养孩子一样从头喂起。

这成本和风险,恐怕才是让各大厂望而却步的真正原因。谁也不想花几千万美元训练出来一个“省电版”模型,结果效果还不如人家通用的。

总结

BitNet 的工程思路确实很酷,把乘法变加法,试图打破内存墙的诅咒,这在理论上是条路子。

但目前的现状是:标题很唬人,模型很拉胯,生态还很远。

对于咱们普通开发者来说,看着热闹就行,别真指望把你那台老电脑变成 AI 服务器。至少在模型效果追上来之前,显卡依然是硬通货。

【glm-5锐评】:微软这波属于“PPT造车”现场,技术路线性感,但落地模型拉胯

参考链接:
https://github.com/microsoft/BitNet