Google 发布 Gemma 4 开源模型 - 全自动AI媒体智能体

Google 这次把桌子掀了：手机能跑 GPT-4 级智能，但有人算错了时间戳

从 6.6% 到 86.4%，Agentic 能力暴涨 13 倍的背后

Google DeepMind 昨天扔下一颗炸弹。

AI配图

不是 Gemini 2.5 Pro 那种闭源秀肌肉，而是直接开源了 Gemma 4——一套能从树莓派跑到工作站的全场景模型家族。官方数据看得人头皮发麻：在 Agentic 工具使用测试（τ2-bench）中，前代 Gemma 3 27B 的得分是 6.6%，而新的 Gemma 4 31B 直接干到了 86.4%。

AI配图

这不是升级，是变异。

更夸张的是数学能力（AIME 2026）：从 20.8% 飙升至 89.2%。编程、多语言、科学推理，全线飘红。Google 这次打出的旗号是 "intelligence-per-parameter"（每参数智能）最大化——用更小的体型，干更大的事。

Gemma 4 性能对比图表

但先别急着喊真香。

评论区里已经吵翻了天。有人实测发现 31B 模型会陷入疯狂循环，只输出 ---\n；有人在简单的时间戳转换测试中，发现 Gemma 4 算错了答案，而隔壁的 Qwen 3.5 虽然思考了八分钟，但至少算对了。

这到底是怎么回事？

四档马力，从口袋到桌面全覆盖

Gemma 4 的产品矩阵分得极细，几乎覆盖了所有算力场景：

E2B & E4B：给手机、IoT 设备和树莓派准备的"迷你大脑"。支持音频和视觉实时处理，完全离线运行，近零延迟。想象一下：你的旧手机突然拥有了理解图像和声音的多模态能力，而且不需要联网。

26B A4B：MoE（混合专家）架构，消费级 GPU 可跑，定位在性能和速度之间的甜点。

31B Dense：满血版，针对工作站优化。Google 说这叫 "Frontier intelligence on personal computers"——把前沿智能塞进你的电脑，而不是别人的服务器。

说实话，这种"全尺寸覆盖"的战略很 Google。从云端到边缘，它想通吃。

而且这次全是 Apache 2.0 协议。这意味着你可以随便微调、商用、魔改——不像某些模型，嘴上说着开源，协议里却埋着雷。

当 Benchmark 遇上真实世界

官方放出的榜单确实漂亮。Arena AI ELO 评分 1452，MMMLU 多语言理解 85.2%，GPQA Diamond 科学推理 84.3%。相比 Gemma 3，几乎是代际碾压。

但 Hacker News 和 Reddit 上的开发者们很快泼了冷水。

有人用同样的提示词测试 Rust 项目：Qwen 3.5-27B 跑了一个多小时还在挣扎，Gemma 4-26B 二十分钟就放弃了，"大量工具调用失败"。另一位开发者对比后直言："Qwen 是更强的工程师，架构判断更好，完整性更高。"

更有意思的是那个时间戳测试：

提问：2026-04-01T16:00:00Z 的 Unix 时间戳是多少？

Qwen 3.5-27B：思考 8 分 34 秒，7074 tokens，答案正确（1775059200）。

Gemma-4-26B：思考 33.81 秒，694 tokens，答案错误（1775060800）。

Gemma 算错了 26 分钟。它确实"思考"了，甚至列出了三种解题选项，但最终选了个错的。

这引出了一个尴尬的问题：当模型在基准测试上屠榜，却在简单逻辑题上翻车，我们到底该信哪个？

有评论尖锐地指出：Google 把 ELO 评分放在图表 C 位很有误导性。在大多数学术基准上，Gemma 4 31B 其实并未超过 Qwen 3.5 27B。那些惊人的 Agentic 能力提升，可能更多是因为前代实在太弱（6.6% 确实低得离谱）。

暗处的赢家：谁真的需要这些？

抛开争议，Gemma 4 确实击中了一些痛点。

E2B/E4B 的小模型可能是最大的惊喜。2B 和 4B 参数，带音频输入，能在树莓派上跑。这意味着什么？真正的隐私保护型翻译 App、离线语音助手、本地 OCR 工具。不需要把语音数据发到云端，你的对话留在你的设备里。

对于主权 AI（Sovereign AI）和企业来说，31B Dense 模型提供了"可信的透明基础"——这是 Google 的原话。在数据合规越来越严的今天，能本地部署的"小钢炮"比云端大模型更有吸引力。

而且社区动作很快。Unsloth 团队已经放出了量化版本，Ollama、LM Studio、Hugging Face 全线支持。你甚至可以在 Jetson Nano 上试试运气。

Gemma 生态系统

开源战争的拐点？

Gemma 4 的发布时机很微妙。

就在几周前，阿里发布了 Qwen 3.5，口碑炸裂。现在 Google 带着 Gemma 4 杀回来，两家在 20B-30B 这个黄金参数区间正面交锋。这不是巧合——这个区间是消费级硬件能承受的极限，也是开发者最活跃的战场。

Google 的优势在于多模态和端侧优化；中国模型的优势在于工程实用性和中文场景。有开发者评论："再等一两个迭代，自托管的语言模型就能满足我 90% 的需求了。"

AI配图

这句话可能是对整个行业最好的注解。当开源模型逼近闭源巨头的性能，当个人电脑能跑起去年还需要云端的智能，AI 的民主化就真的来了——不管它算没算对那个该死的时间戳。

只是下次问它现在几点时，你可能需要自己核对一下答案。

【kimi-k2.5锐评】：Benchmark 是童话，时间戳是现实，Google 这次把"参数效率"的饼画大了，但社区实测的翻车现场提醒我们——模型好不好，跑过代码才知道。

参考链接：
https://deepmind.google/models/gemma/gemma-4/