Gemma 4 12B发布：谷歌推出无编码器多模态模型，主打端侧部署

Google悄悄丢出一个“核弹”，但争议也随之而来

1.5亿次下载。这是Gemma开源模型家族交出的成绩单。

就在大家以为Google在端侧小模型上牌出得差不多了的时候，他们默默从裤兜里掏出了一枚“手榴弹”——Gemma 4 12B。名字不花哨，但它想干的事儿有点猛：把需要巨大算力的多模态智能，直接塞进你的笔记本电脑里。

Gemma 4 12B 统一架构示意图

传统模型怎么处理图片和声音？简单说，就是先请“翻译官”（编码器）把它们翻译成模型能懂的语言，再交给“主脑”（LLM）处理。这个过程，费时、费内存。

Gemma 4 12B的做法堪称简单粗暴：把翻译官开了。

官方技术文档透露，他们用一个轻量级的嵌入模块（本质上是矩阵乘法加些归一化）替代了视觉编码器，直接让LLM自己看图。对于音频，甚至更彻底——直接砍掉编码器，把原始音频信号“投射”进模型的世界。

网友锐评：“所以这到底算不算‘编码’？只是换了个更小更野的‘编码器’罢了。”（开发者指南指出，这个嵌入模块仍有3500万参数。）

这么做的结果立竿见影：模型瘦了一大圈，内存占用直接减半，但性能却逼近自家26B的“大哥”。这意味着，一台16GB内存的MacBook，现在就能本地运行一个强大的多模态Agent。

为什么是Google？为什么是现在？

一位高赞评论道出了本质：“我们现在进入了闭环游戏。Google不再需要别人来加速他们的模型。这是他们的看家本领。”

这话有点道理。从自研TPU芯片，到庞大的数据，再到顶尖的算法团队，Google正在构建一个从硬件到软件、从训练到部署的完美闭环。Gemma 4 12B就像是这个闭环体系里的一次“效率炫技”——用更少的资源，做更多的事。

这就像芯片制程的演进，不断逼近物理极限，但又总能在极限上再抠出一点进步。AI的效率竞赛，恐怕会以“100倍”的量级持续下去。

官方演示很美好：离线转录、格式化、翻译语音，一气呵成。但一些抢先体验的用户，给出了截然不同的反馈。

“我跑了一下测试……它的图像处理能力很糟糕。”一位用户用仅0.8B参数的Qwen模型做对比，发现在识别“这是测试”这样的简单文本图片时，Gemma 4 12B思考了6分钟仍失败，而小模型瞬间完成。“这结果令人震惊。”

当然，有用户怀疑是量化版本或工具链的问题。但这至少说明，一个全新的、激进的架构（去掉编码器），在落地时必然面临兼容性与稳定性的严酷考验。技术创新与用户体验之间，隔着一条名叫“工程”的深沟。

每次Google发布开源模型，总有人问这个灵魂问题：一个靠垄断赚钱的巨头，为什么拼命给竞争对手送“炮弹”？

这看起来确实矛盾。一位评论者直言：“我不理解这如何符合他们作为营利性公司的更大图景。这纯粹是善意或营销吗？”

或许答案没那么复杂。庞大的开发者生态、海量的真实反馈、技术标准的制定权……这些“软实力”的价值，有时并不直接体现在短期财报上。用开源养生态，用生态反哺商业，这或许是Google下一盘更大的棋。

Gemma 4 12B可能不是最完美的模型，但它指明了一个清晰的方向：多模态AI正在从“云端巨兽”向“本地精灵”快速进化。

它填上了Google模型矩阵里从4B到26B之间的关键空白，给那些受限于算力、又渴望隐私与低延迟的开发者，递上了一把新钥匙。尽管初生牛犊还有些踉跄，但一个12B参数的模型，能在笔记本电脑上尝试处理视觉和听觉，这件事本身，就足够让人心跳加速。

当AI的算力需求不再高不可攀，下一个改变世界的应用，会诞生在谁的书桌上？

【锐评】：Google把模型塞进笔记本，野心很大，但路还长；开源看似赔本，实则是在给未来下注。

参考链接：
https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/