Google悄悄丢出一个“核弹”,但争议也随之而来

1.5亿次下载。这是Gemma开源模型家族交出的成绩单。

就在大家以为Google在端侧小模型上牌出得差不多了的时候,他们默默从裤兜里掏出了一枚“手榴弹”——Gemma 4 12B。名字不花哨,但它想干的事儿有点猛:把需要巨大算力的多模态智能,直接塞进你的笔记本电脑里。

Gemma 4 12B 统一架构示意图

无编码器架构:一场刀刃向内的“架构革命”

传统模型怎么处理图片和声音?简单说,就是先请“翻译官”(编码器)把它们翻译成模型能懂的语言,再交给“主脑”(LLM)处理。这个过程,费时、费内存。

Gemma 4 12B的做法堪称简单粗暴:把翻译官开了

官方技术文档透露,他们用一个轻量级的嵌入模块(本质上是矩阵乘法加些归一化)替代了视觉编码器,直接让LLM自己看图。对于音频,甚至更彻底——直接砍掉编码器,把原始音频信号“投射”进模型的世界。

网友锐评:“所以这到底算不算‘编码’?只是换了个更小更野的‘编码器’罢了。”(开发者指南指出,这个嵌入模块仍有3500万参数。)

这么做的结果立竿见影:模型瘦了一大圈,内存占用直接减半,但性能却逼近自家26B的“大哥”。这意味着,一台16GB内存的MacBook,现在就能本地运行一个强大的多模态Agent。

闭环游戏:Google开始“自己带自己玩”

为什么是Google?为什么是现在?

一位高赞评论道出了本质:“我们现在进入了闭环游戏。Google不再需要别人来加速他们的模型。这是他们的看家本领。

这话有点道理。从自研TPU芯片,到庞大的数据,再到顶尖的算法团队,Google正在构建一个从硬件到软件、从训练到部署的完美闭环。Gemma 4 12B就像是这个闭环体系里的一次“效率炫技”——用更少的资源,做更多的事。

这就像芯片制程的演进,不断逼近物理极限,但又总能在极限上再抠出一点进步。AI的效率竞赛,恐怕会以“100倍”的量级持续下去。

现实骨感:当“先锋”遇上“速写本”

官方演示很美好:离线转录、格式化、翻译语音,一气呵成。但一些抢先体验的用户,给出了截然不同的反馈。

“我跑了一下测试……它的图像处理能力很糟糕。”一位用户用仅0.8B参数的Qwen模型做对比,发现在识别“这是测试”这样的简单文本图片时,Gemma 4 12B思考了6分钟仍失败,而小模型瞬间完成。“这结果令人震惊。”

当然,有用户怀疑是量化版本或工具链的问题。但这至少说明,一个全新的、激进的架构(去掉编码器),在落地时必然面临兼容性与稳定性的严酷考验。技术创新与用户体验之间,隔着一条名叫“工程”的深沟。

开源的悖论:Google在图什么?

每次Google发布开源模型,总有人问这个灵魂问题:一个靠垄断赚钱的巨头,为什么拼命给竞争对手送“炮弹”?

这看起来确实矛盾。一位评论者直言:“我不理解这如何符合他们作为营利性公司的更大图景。这纯粹是善意或营销吗?”

或许答案没那么复杂。庞大的开发者生态、海量的真实反馈、技术标准的制定权……这些“软实力”的价值,有时并不直接体现在短期财报上。用开源养生态,用生态反哺商业,这或许是Google下一盘更大的棋。

结语:一场静悄悄的端侧革命

Gemma 4 12B可能不是最完美的模型,但它指明了一个清晰的方向:多模态AI正在从“云端巨兽”向“本地精灵”快速进化

它填上了Google模型矩阵里从4B到26B之间的关键空白,给那些受限于算力、又渴望隐私与低延迟的开发者,递上了一把新钥匙。尽管初生牛犊还有些踉跄,但一个12B参数的模型,能在笔记本电脑上尝试处理视觉和听觉,这件事本身,就足够让人心跳加速。

当AI的算力需求不再高不可攀,下一个改变世界的应用,会诞生在谁的书桌上?

【锐评】:Google把模型塞进笔记本,野心很大,但路还长;开源看似赔本,实则是在给未来下注。

参考链接:
https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/