过去,视频要先变成文字,音频要先转录,图片要先被AI"看图说话",

每一次转换,都是一次意义的流失,都是一笔隐藏的"翻译税"

现在Google说:不用这么麻烦了。直接把视频、音频、PDF、邮件全扔进来,它们会在同一个"数学宇宙"里自动找到彼此。

这就是Gemini Embedding 2。它不是升级,是对企业知识管理的降维打击

image

当图书馆不再按作者排序,而是按" vibe "

先搞清楚Embedding是什么。

传统搜索像图书馆的杜威十进制分类法——按作者、标题、 genre 硬分。但Embedding模型做的是另一件事:它按"意思"归类

Steve Jobs的传记会飞到Macintosh技术手册旁边;关于日落的诗会飘向太平洋海岸摄影集。不是因为它们关键词相同,而是因为它们的"数学坐标"在3072维空间里紧紧挨着

Google这次做的更绝。以前的模型是"文字优先"——想看视频?先转录成文字。想听音频?先变成文本。

Gemini Embedding 2是原生多模态。它直接把声波、像素、动作、文字塞进同一个向量空间。视频就是视频,音频就是音频,不需要先变成"第二手"的文字描述。

这意味着什么?少了一层翻译,就少了一层失真

70%延迟消失,俄罗斯套娃救场

技术细节往往枯燥,但这次有个漂亮的概念:Matryoshka Representation Learning(套娃表示学习)。

就像俄罗斯套娃,最重要的信息藏在最里面。你可以用完整的3072维追求极致精度,也可以"截断"到768维或1536维来省存储空间。精度损失不是线性的,但成本节省是实实在在的

benchmark 数据很暴力:在视频-文本检索任务上,它把对手甩在身后;在音频理解上,它不需要转录就能捕捉语气和音位。

创作者经济平台Sparkonomy已经实测:延迟砍掉70%,语义相似度匹配直接翻倍。法律科技公司Everlaw更狠——在数百万卷宗的诉讼取证中,用原生多模态能力找到了传统文本搜索会漏掉的"冒烟枪"证据。

当AI能直接"看"视频、"听"录音,而不是"读"它们的文字摘要,真相就藏不住了。

但别急着狂欢,现实有"但是"

说实话,Google这次也留了后手。

首先是物理限制单次请求只能处理6页PDF、128秒视频(2分08秒)、80秒音频、6张图。想处理10分钟的会议录像?你得切成5段。

这就像是买了一台超级扫描仪,但进纸口只能塞一页纸。你需要"分块"处理,再把向量拼回数据库。技术上可行,但工程上麻烦。

然后是价格歧视

文本、图像、视频是0.25/百万token,但音频要0.5。为什么?因为原生处理声波比处理文字费算力。Google把成本透明地转嫁给了企业。

还有那个"免费层"——60次/分钟的限额,且你的数据会被用来改进Google的产品。天下没有免费的embedding。

迁移还是不迁移?这是个结构问题

对于首席数据官们,决策点不在于"要不要更好的技术",而在于你现在有多痛

如果你的 pipelines 还在用"视频转文字→文字向量化"这种两步走,Gemini Embedding 2是战略必需。它消除了中间模型的"翻译税",简化了架构,降低了出错节点。

但代价是重索引。你得把现有知识库全部重新嵌入一遍,才能让新旧数据住在同一个3072维的"数学社区"里。这是一笔一次性的算力账单。

我个人觉得,那些拥有海量异构数据的企业——律所、媒体库、客服中心——应该立即试点。而对于纯文本公司,可能没必要为了技术炫技而折腾。

image

有意思的是,Google这次用了Apache 2.0许可证开放Colab notebooks。你可以拿代码去改,去商用,不用开源你自己的东西。这不是做慈善,这是在降低"切换成本",抢 enterprise 的入口

当所有知识被压进同一个数学空间

我们正站在一个奇怪的临界点。

以前,企业的视频、音频、文档各自为政,像孤岛。现在Google给了一座桥——不,是一个黑洞,把所有模态都吸进同一个坐标系。

你可以用文字搜索视频里的某个瞬间,用图片搜索相似的录音情绪,用PDF片段定位合同里的漏洞。数据的边界在融化

但这也让人有点不安:当一切都被向量化、被压缩成3072个数字,那些无法被数学捕捉的细微差别——一段音频里的微妙停顿,一张图片里的特定光影——会不会也被强行"平均"掉了?

技术解决了"找到"的问题,但它能解决"理解"的问题吗?

image

【kimi-k2.5锐评】:Google用"原生多模态"做诱饵,实则是在争夺企业知识库的"底层操作系统"席位,而那句"免费层数据用于改进产品"的注释,才是这盘生意里真正的 Trojan Horse。

参考链接:
https://venturebeat.com/data/googles-gemini-embedding-2-arrives-with-native-multimodal-support-to-cut