15.97GB 对决 1.5GB。

一个是原本需要两张高端显卡才能勉强跑起来的FLUX.2 Klein 4B大模型,另一个是直接塞进iPhone、在手机本地就能生图的极限压缩版。

这不是什么概念演示,而是加州理工团队PrismML刚刚扔出的重磅炸弹——Bonsai Image 4B

当整个AI圈都在疯狂堆算力、卷云端大模型的时候,这群人反手把40亿参数的图像模型权重,硬生生砍到了1比特。结果呢?模型不仅没废,还保留了88%到95%的原版功力。

说实话,这波操作,有点狠。

砍到只剩1比特,这压缩率有点离谱

跑过本地大模型的人都知道,那点显存永远不够用。图像生成更是内存杀手,每一步去噪都要反复调用Transformer,内存带宽直接拉满。

PrismML的解法极其粗暴:既然内存不够,那我就把权重精度砍到极致。

Bonsai Image 4B推出了两个版本:1-bit版,权重只有{-1, +1};Ternary版(三进制),权重是{-1, 0, +1},配合FP16的分组缩放因子,实际每权重只有1.125和1.71个比特。

原版FLUX.2 Klein 4B的Transformer占用7.75GB。换成1-bit版,直接干到0.93GB,压缩了8.3倍。Ternary版稍大,1.21GB,也压缩了6.4倍。

Image 1

算上文本编码器和VAE,在Apple Silicon上的总部署大小,1-bit版只要3.42GB,Ternary版3.88GB。而生图时的平均活跃内存,分别只需1.5GB和1.96GB。

老实讲,把40亿参数的模型塞进2GB的运行内存里,这听起来就像是在用算盘跑3A游戏。

功力尽失?不,留住了95%的精髓

压缩这么狠,画质是不是糊成马赛克了?

这才是最打脸的地方。PrismML拿三个基准测试(GenEval、HPSv3、DPG-Bench)跑了一遍,数据相当耐看。

Ternary版保留了原版FLUX.2 Klein 4B约95%的准确率。1-bit版保留了88%。

Image 2

跟同行比呢?更刺激。同级别的BK-SDM-Small压缩率差不多(7.9倍),但准确率只有原版的42%。老牌的Stable Diffusion 1.5准确率51%,SDXL也才67%。

Bonsai Image硬是把现代扩散模型的体验,拉到了以前只能跑小模型、残废模型的内存区间里。这就是纯粹的暴力美学,用精度换空间,但没把灵魂换掉。

瓶颈真是内存吗?评论区吵翻了

有意思的是,这波发布在外网引发了不小的争议。

有人直接开怼:现在的瓶颈真的是内存吗?

原版模型8-12GB显存的卡就能跑,生成时间才是痛点。Bonsai Image在iPhone 17 Pro Max上生成一张512x512的图需要9.4秒,在Mac M4 Pro上大概6秒。虽然在Mac上比原版MFLUX管线快了5.6倍,但绝对速度并不算惊艳,甚至比原版小模型还稍微慢一点。

还有人挑刺:虽然Transformer压得很小,但前置的1.8GB文本编码器依然是FP16,这头大象没被砍掉,所谓的“极限压缩”在实际部署时多少有点缩水。

更有硬核技术宅指出,FLUX.2本质上是整流模型,官方非要叫扩散模型,多少有点蹭概念的意思。

个人觉得,这些质疑没毛病,但没抓到重点。

不看广告看疗效,云端API的护城河松了

为什么非要在本地跑?因为图像生成天然是个反复迭代的过程。

谁画图是一次出图直接用的?都是改提示词、比对、微调、重画。如果全走云端API,每一次迭代都是钱,每一秒等待都在消耗耐心,更别提那些根本不想把创意资产传到别人服务器上的隐私顾虑。

Image 3

Bonsai Image 4B的价值,不是让你在手机上秒出大片,而是把创作的闭环彻底留在了本地。不需要网络,不用付Token费,你的手机就是你的私有算力池。

更何况,模型和代码全部基于Apache 2.0开源。PrismML甚至直接上线了iOS应用Bonsai Studio。这摆明了是在给开发者递铲子,至于挖出什么金矿——参考评论区那句“不出一天,就会有人为这个1-bit模型训练出专属的LoRA”,懂的都懂。

当端侧算力一点点啃掉云端的特权,AI的下一个主战场,或许就在每个人的口袋里。

【锐评】:把大模型砍到1比特塞进手机,看似暴力拆解,实则是对云端按次收费模式的精准偷家。

参考链接:
https://prismml.com/news/bonsai-image-4b