Bonsai Image 4B：首个可在iPhone端侧运行的1-bit图像生成模型

15.97GB 对决 1.5GB。

一个是原本需要两张高端显卡才能勉强跑起来的FLUX.2 Klein 4B大模型，另一个是直接塞进iPhone、在手机本地就能生图的极限压缩版。

这不是什么概念演示，而是加州理工团队PrismML刚刚扔出的重磅炸弹——Bonsai Image 4B。

当整个AI圈都在疯狂堆算力、卷云端大模型的时候，这群人反手把40亿参数的图像模型权重，硬生生砍到了1比特。结果呢？模型不仅没废，还保留了88%到95%的原版功力。

说实话，这波操作，有点狠。

砍到只剩1比特，这压缩率有点离谱

跑过本地大模型的人都知道，那点显存永远不够用。图像生成更是内存杀手，每一步去噪都要反复调用Transformer，内存带宽直接拉满。

PrismML的解法极其粗暴：既然内存不够，那我就把权重精度砍到极致。

Bonsai Image 4B推出了两个版本：1-bit版，权重只有{-1, +1}；Ternary版（三进制），权重是{-1, 0, +1}，配合FP16的分组缩放因子，实际每权重只有1.125和1.71个比特。

原版FLUX.2 Klein 4B的Transformer占用7.75GB。换成1-bit版，直接干到0.93GB，压缩了8.3倍。Ternary版稍大，1.21GB，也压缩了6.4倍。

算上文本编码器和VAE，在Apple Silicon上的总部署大小，1-bit版只要3.42GB，Ternary版3.88GB。而生图时的平均活跃内存，分别只需1.5GB和1.96GB。

老实讲，把40亿参数的模型塞进2GB的运行内存里，这听起来就像是在用算盘跑3A游戏。

压缩这么狠，画质是不是糊成马赛克了？

这才是最打脸的地方。PrismML拿三个基准测试（GenEval、HPSv3、DPG-Bench）跑了一遍，数据相当耐看。

Ternary版保留了原版FLUX.2 Klein 4B约95%的准确率。1-bit版保留了88%。

跟同行比呢？更刺激。同级别的BK-SDM-Small压缩率差不多（7.9倍），但准确率只有原版的42%。老牌的Stable Diffusion 1.5准确率51%，SDXL也才67%。

Bonsai Image硬是把现代扩散模型的体验，拉到了以前只能跑小模型、残废模型的内存区间里。这就是纯粹的暴力美学，用精度换空间，但没把灵魂换掉。

有意思的是，这波发布在外网引发了不小的争议。

有人直接开怼：现在的瓶颈真的是内存吗？

原版模型8-12GB显存的卡就能跑，生成时间才是痛点。Bonsai Image在iPhone 17 Pro Max上生成一张512x512的图需要9.4秒，在Mac M4 Pro上大概6秒。虽然在Mac上比原版MFLUX管线快了5.6倍，但绝对速度并不算惊艳，甚至比原版小模型还稍微慢一点。

还有人挑刺：虽然Transformer压得很小，但前置的1.8GB文本编码器依然是FP16，这头大象没被砍掉，所谓的“极限压缩”在实际部署时多少有点缩水。

更有硬核技术宅指出，FLUX.2本质上是整流模型，官方非要叫扩散模型，多少有点蹭概念的意思。

个人觉得，这些质疑没毛病，但没抓到重点。

为什么非要在本地跑？因为图像生成天然是个反复迭代的过程。

谁画图是一次出图直接用的？都是改提示词、比对、微调、重画。如果全走云端API，每一次迭代都是钱，每一秒等待都在消耗耐心，更别提那些根本不想把创意资产传到别人服务器上的隐私顾虑。

Bonsai Image 4B的价值，不是让你在手机上秒出大片，而是把创作的闭环彻底留在了本地。不需要网络，不用付Token费，你的手机就是你的私有算力池。

更何况，模型和代码全部基于Apache 2.0开源。PrismML甚至直接上线了iOS应用Bonsai Studio。这摆明了是在给开发者递铲子，至于挖出什么金矿——参考评论区那句“不出一天，就会有人为这个1-bit模型训练出专属的LoRA”，懂的都懂。

当端侧算力一点点啃掉云端的特权，AI的下一个主战场，或许就在每个人的口袋里。

【锐评】：把大模型砍到1比特塞进手机，看似暴力拆解，实则是对云端按次收费模式的精准偷家。

参考链接：
https://prismml.com/news/bonsai-image-4b