向量数据库还没来得及成为 AI 应用的标配,可能就要被“优化”掉了?

本周,Google Cloud Platform 官方 Github 上出现了一个极具挑衅意味的项目:“Always On Memory Agent”(常驻记忆智能体)。

AI配图

项目作者 Shubham Saboo 是 Google 的高级 AI 产品经理。他在简介里写了一句让很多开发者脊背发凉的话:

“没有向量数据库。没有嵌入。只有一个 LLM,读、想、写结构化记忆。”

说实话,这有点反直觉。过去两年,但凡做大模型应用,RAG(检索增强生成)几乎是标配,向量数据库更是这一架构的“心脏”。现在 Google 内部的人跳出来说:把心脏切了吧,用大模型直接管记忆更香。

这究竟是技术的进步,还是为了省钱的“魔改”?

一个“不知疲倦”的数字大脑

先别急着站队,看看这个智能体到底干了什么。

Saboo 构建的这套系统,本质上是一个**“永不休眠”的记忆层**。

它基于 Google 去年春天发布的 Agent Development Kit (ADK) 开发,核心模型用的是 3 月 3 日才发布的 Gemini 3.1 Flash-Lite——听名字就知道,这是 Google 为了极致性价比推出的模型。

整个系统逻辑很简单:它像是一个后台运行的幽灵,持续不断地吞咽文件、API 输入,甚至支持文本、图像、音频、视频和 PDF。

重点是它的记忆机制。

它不搞复杂的向量检索,而是把记忆存成结构化的 SQLite 数据库。默认情况下,每 30 分钟它会自己在后台搞一次“记忆整合”。

这就像人类睡觉时大脑在整理白天的碎片信息。智能体在后台“做梦”,把新摄入的信息和旧记忆合并、去重、归纳。

对于开发者来说,这诱惑太大了。传统的检索栈太重:嵌入管道、向量存储、索引逻辑、同步机制……运维成本高得吓人。Saboo 的方案,直接把这一坨基础设施砍掉了。

当然,这也把性能瓶颈从“向量搜索开销”转移到了“模型延迟”和“记忆压缩逻辑”上。

为什么敢把“大脑”交给 Flash-Lite?

这就不得不提这个项目的“经济支柱”——Gemini 3.1 Flash-Lite。

老实讲,要让一个智能体 24 小时连轴转,读取、思考、写入记忆,如果 token 价格降不下来,企业分分钟破产。

AI配图

Google 这次给出的数据很有意思:

  • 价格: 输入 $0.25 / 百万 token,输出 $1.50 / 百万 token。
  • 速度: 比 Gemini 2.5 Flash 快 2.5 倍(首字延迟),输出速度提升 45%。
  • 能力: Arena.ai 上 Elo 评分 1432,GPQA Diamond 86.9%,MMMU Pro 76.8%。

这个定价和速度,显然是为了高频次、低延迟的任务设计的。翻译、审核、UI 生成,以及这种需要不断“反刍”记忆的智能体。

如果没有 Flash-Lite 这种“白菜价”的模型支撑,所谓的“Always On”(常驻)只能是空中楼阁。

合规噩梦:当智能体开始“胡思乱想”

技术看起来很美,但只要你在企业级场景里待过,就会觉得哪里不对劲。

项目发布后,X 平台上的评论区炸出了很多资深架构师的担忧。

Franck Abe 的评价一针见血:这确实是“持续智能体自治”的巨大飞跃,但如果没有确定性的边界,智能体在后台“做梦”整合记忆,简直就是合规噩梦。

试想一下,一个企业的客服智能体,在后台整理记忆时,把客户的隐私数据和一个公开的营销文案“整合”在了一起,第二天回复另一个客户时把隐私抖了出来。谁来负责?

另一位开发者 ELED 指出,常驻智能体的最大成本根本不是 token,而是**“漂移”和“死循环”**。

智能体记错了东西,并在后台不断自我强化这个错误,最后变成一个疯疯癫癫的“偏执狂”。这在生产环境里是致命的。

还有一个技术细节被开发者 Iffy 吐槽:所谓的“无嵌入”,真的能打吗?

虽然不用向量数据库,但系统依然要分块、索引、检索结构化记忆。对于小规模记忆体,LLM 直接处理可能没问题,一旦记忆库膨胀到几十 GB,这种“暴力”检索还能撑住吗?

这种质疑在技术上非常硬核:去掉了向量数据库,不代表去掉了检索设计的复杂性,只是把锅甩给了 LLM。

这不是 Demo,这是智能体操作系统的雏形

虽然争议不少,但这个项目的信号意义远大于代码本身。

它让我们看到了 Google 对 Agent Infrastructure(智能体基础设施)的野心。

Saboo 并不是想做一个简单的 Demo,他在试图定义一种新的智能体形态:记忆不再是外挂的插件,而是运行时的一部分。

ADK 框架本身是模型无关、部署无关的,支持 Cloud Run 和 Vertex AI Agent Engine。这让这套“常驻记忆”系统看起来更像是未来智能体操作系统的一个底层驱动。

不过,必须要泼一盆冷水。

目前的代码库里,并没有提供企业级的合规控制方案。比如:谁能写记忆?记忆怎么合并?保留多久?怎么删除?怎么审计?

这些在 Demo 里被忽略的问题,在落地时全是坑。

而且,素材里也明确提到,虽然内部看起来用了多个“专家智能体”协作,但并没有证据表明这是一个多智能体共享记忆的框架。

它更像是一个单体的、拥有多个“脑区”的智能体。

写在最后

Google 这次开源,给了行业一个极其诱人的模板:更轻量的架构、更低的运维成本、更接近人类直觉的记忆方式。

但在我看来,这更像是一场豪赌。

赌的是 LLM 的推理能力已经强到可以取代专门的检索算法;赌的是企业愿意为了“简单”而承担“漂移”的风险。

能不能记住,已经不是问题;能不能“负责任”地记住,才是这道题的终极解。

【glm-5锐评】:向量数据库连夜修改简历,LLM 笑着说“你的活我也能干”,但这到底是技术升级,还是把锅甩给了更贵的脑子?

参考链接:
https://venturebeat.com/orchestration/google-pm-open-sources-always-on-memory-agent-ditching-vector-databases-for