Google 这次把桌子掀了:手机能跑 GPT-4 级智能,但有人算错了时间戳

从 6.6% 到 86.4%,Agentic 能力暴涨 13 倍的背后

Google DeepMind 昨天扔下一颗炸弹。

AI配图

不是 Gemini 2.5 Pro 那种闭源秀肌肉,而是直接开源了 Gemma 4——一套能从树莓派跑到工作站的全场景模型家族。官方数据看得人头皮发麻:在 Agentic 工具使用测试(τ2-bench)中,前代 Gemma 3 27B 的得分是 6.6%,而新的 Gemma 4 31B 直接干到了 86.4%

AI配图

这不是升级,是变异。

更夸张的是数学能力(AIME 2026):从 20.8% 飙升至 89.2%。编程、多语言、科学推理,全线飘红。Google 这次打出的旗号是 "intelligence-per-parameter"(每参数智能)最大化——用更小的体型,干更大的事。

Gemma 4 性能对比图表

但先别急着喊真香。

评论区里已经吵翻了天。有人实测发现 31B 模型会陷入疯狂循环,只输出 ---\n;有人在简单的时间戳转换测试中,发现 Gemma 4 算错了答案,而隔壁的 Qwen 3.5 虽然思考了八分钟,但至少算对了。

这到底是怎么回事?

四档马力,从口袋到桌面全覆盖

Gemma 4 的产品矩阵分得极细,几乎覆盖了所有算力场景:

E2B & E4B给手机、IoT 设备和树莓派准备的"迷你大脑"。支持音频和视觉实时处理,完全离线运行,近零延迟。想象一下:你的旧手机突然拥有了理解图像和声音的多模态能力,而且不需要联网。

26B A4BMoE(混合专家)架构,消费级 GPU 可跑,定位在性能和速度之间的甜点。

31B Dense满血版,针对工作站优化。Google 说这叫 "Frontier intelligence on personal computers"——把前沿智能塞进你的电脑,而不是别人的服务器。

说实话,这种"全尺寸覆盖"的战略很 Google。从云端到边缘,它想通吃。

而且这次全是 Apache 2.0 协议。这意味着你可以随便微调、商用、魔改——不像某些模型,嘴上说着开源,协议里却埋着雷。

当 Benchmark 遇上真实世界

官方放出的榜单确实漂亮。Arena AI ELO 评分 1452,MMMLU 多语言理解 85.2%,GPQA Diamond 科学推理 84.3%。相比 Gemma 3,几乎是代际碾压。

但 Hacker News 和 Reddit 上的开发者们很快泼了冷水。

有人用同样的提示词测试 Rust 项目:Qwen 3.5-27B 跑了一个多小时还在挣扎,Gemma 4-26B 二十分钟就放弃了,"大量工具调用失败"。另一位开发者对比后直言:"Qwen 是更强的工程师,架构判断更好,完整性更高。"

更有意思的是那个时间戳测试:

提问:2026-04-01T16:00:00Z 的 Unix 时间戳是多少?

Qwen 3.5-27B:思考 8 分 34 秒,7074 tokens,答案正确(1775059200)。

Gemma-4-26B:思考 33.81 秒,694 tokens,答案错误(1775060800)。

Gemma 算错了 26 分钟。它确实"思考"了,甚至列出了三种解题选项,但最终选了个错的。

这引出了一个尴尬的问题:当模型在基准测试上屠榜,却在简单逻辑题上翻车,我们到底该信哪个?

有评论尖锐地指出:Google 把 ELO 评分放在图表 C 位很有误导性。在大多数学术基准上,Gemma 4 31B 其实并未超过 Qwen 3.5 27B。那些惊人的 Agentic 能力提升,可能更多是因为前代实在太弱(6.6% 确实低得离谱)。

暗处的赢家:谁真的需要这些?

抛开争议,Gemma 4 确实击中了一些痛点。

E2B/E4B 的小模型可能是最大的惊喜。2B 和 4B 参数,带音频输入,能在树莓派上跑。这意味着什么?真正的隐私保护型翻译 App、离线语音助手、本地 OCR 工具。不需要把语音数据发到云端,你的对话留在你的设备里

对于主权 AI(Sovereign AI)和企业来说,31B Dense 模型提供了"可信的透明基础"——这是 Google 的原话。在数据合规越来越严的今天,能本地部署的"小钢炮"比云端大模型更有吸引力。

而且社区动作很快。Unsloth 团队已经放出了量化版本,Ollama、LM Studio、Hugging Face 全线支持。你甚至可以在 Jetson Nano 上试试运气。

Gemma 生态系统

开源战争的拐点?

Gemma 4 的发布时机很微妙。

就在几周前,阿里发布了 Qwen 3.5,口碑炸裂。现在 Google 带着 Gemma 4 杀回来,两家在 20B-30B 这个黄金参数区间正面交锋。这不是巧合——这个区间是消费级硬件能承受的极限,也是开发者最活跃的战场

Google 的优势在于多模态和端侧优化;中国模型的优势在于工程实用性和中文场景。有开发者评论:"再等一两个迭代,自托管的语言模型就能满足我 90% 的需求了。"

AI配图

这句话可能是对整个行业最好的注解。当开源模型逼近闭源巨头的性能,当个人电脑能跑起去年还需要云端的智能,AI 的民主化就真的来了——不管它算没算对那个该死的时间戳。

只是下次问它现在几点时,你可能需要自己核对一下答案。

【kimi-k2.5锐评】:Benchmark 是童话,时间戳是现实,Google 这次把"参数效率"的饼画大了,但社区实测的翻车现场提醒我们——模型好不好,跑过代码才知道。

参考链接:
https://deepmind.google/models/gemma/gemma-4/