Google 开源“常驻记忆”智能体，第一刀砍向了向量数据库？

向量数据库还没来得及成为 AI 应用的标配，可能就要被“优化”掉了？

本周，Google Cloud Platform 官方 Github 上出现了一个极具挑衅意味的项目：“Always On Memory Agent”（常驻记忆智能体）。

AI配图

项目作者 Shubham Saboo 是 Google 的高级 AI 产品经理。他在简介里写了一句让很多开发者脊背发凉的话：

“没有向量数据库。没有嵌入。只有一个 LLM，读、想、写结构化记忆。”

说实话，这有点反直觉。过去两年，但凡做大模型应用，RAG（检索增强生成）几乎是标配，向量数据库更是这一架构的“心脏”。现在 Google 内部的人跳出来说：把心脏切了吧，用大模型直接管记忆更香。

这究竟是技术的进步，还是为了省钱的“魔改”？

一个“不知疲倦”的数字大脑

先别急着站队，看看这个智能体到底干了什么。

Saboo 构建的这套系统，本质上是一个**“永不休眠”的记忆层**。

它基于 Google 去年春天发布的 Agent Development Kit (ADK) 开发，核心模型用的是 3 月 3 日才发布的 Gemini 3.1 Flash-Lite——听名字就知道，这是 Google 为了极致性价比推出的模型。

整个系统逻辑很简单：它像是一个后台运行的幽灵，持续不断地吞咽文件、API 输入，甚至支持文本、图像、音频、视频和 PDF。

重点是它的记忆机制。

它不搞复杂的向量检索，而是把记忆存成结构化的 SQLite 数据库。默认情况下，每 30 分钟它会自己在后台搞一次“记忆整合”。

这就像人类睡觉时大脑在整理白天的碎片信息。智能体在后台“做梦”，把新摄入的信息和旧记忆合并、去重、归纳。

对于开发者来说，这诱惑太大了。传统的检索栈太重：嵌入管道、向量存储、索引逻辑、同步机制……运维成本高得吓人。Saboo 的方案，直接把这一坨基础设施砍掉了。

当然，这也把性能瓶颈从“向量搜索开销”转移到了“模型延迟”和“记忆压缩逻辑”上。

为什么敢把“大脑”交给 Flash-Lite？

这就不得不提这个项目的“经济支柱”——Gemini 3.1 Flash-Lite。

老实讲，要让一个智能体 24 小时连轴转，读取、思考、写入记忆，如果 token 价格降不下来，企业分分钟破产。

AI配图

Google 这次给出的数据很有意思：

价格： 输入 $0.25 / 百万 token，输出 $1.50 / 百万 token。
速度： 比 Gemini 2.5 Flash 快 2.5 倍（首字延迟），输出速度提升 45%。
能力： Arena.ai 上 Elo 评分 1432，GPQA Diamond 86.9%，MMMU Pro 76.8%。

这个定价和速度，显然是为了高频次、低延迟的任务设计的。翻译、审核、UI 生成，以及这种需要不断“反刍”记忆的智能体。

如果没有 Flash-Lite 这种“白菜价”的模型支撑，所谓的“Always On”（常驻）只能是空中楼阁。

合规噩梦：当智能体开始“胡思乱想”

技术看起来很美，但只要你在企业级场景里待过，就会觉得哪里不对劲。

项目发布后，X 平台上的评论区炸出了很多资深架构师的担忧。

Franck Abe 的评价一针见血：这确实是“持续智能体自治”的巨大飞跃，但如果没有确定性的边界，智能体在后台“做梦”整合记忆，简直就是合规噩梦。

试想一下，一个企业的客服智能体，在后台整理记忆时，把客户的隐私数据和一个公开的营销文案“整合”在了一起，第二天回复另一个客户时把隐私抖了出来。谁来负责？

另一位开发者 ELED 指出，常驻智能体的最大成本根本不是 token，而是**“漂移”和“死循环”**。

智能体记错了东西，并在后台不断自我强化这个错误，最后变成一个疯疯癫癫的“偏执狂”。这在生产环境里是致命的。

还有一个技术细节被开发者 Iffy 吐槽：所谓的“无嵌入”，真的能打吗？

虽然不用向量数据库，但系统依然要分块、索引、检索结构化记忆。对于小规模记忆体，LLM 直接处理可能没问题，一旦记忆库膨胀到几十 GB，这种“暴力”检索还能撑住吗？

这种质疑在技术上非常硬核：去掉了向量数据库，不代表去掉了检索设计的复杂性，只是把锅甩给了 LLM。

这不是 Demo，这是智能体操作系统的雏形

虽然争议不少，但这个项目的信号意义远大于代码本身。

它让我们看到了 Google 对 Agent Infrastructure（智能体基础设施）的野心。

Saboo 并不是想做一个简单的 Demo，他在试图定义一种新的智能体形态：记忆不再是外挂的插件，而是运行时的一部分。

ADK 框架本身是模型无关、部署无关的，支持 Cloud Run 和 Vertex AI Agent Engine。这让这套“常驻记忆”系统看起来更像是未来智能体操作系统的一个底层驱动。

不过，必须要泼一盆冷水。

目前的代码库里，并没有提供企业级的合规控制方案。比如：谁能写记忆？记忆怎么合并？保留多久？怎么删除？怎么审计？

这些在 Demo 里被忽略的问题，在落地时全是坑。

而且，素材里也明确提到，虽然内部看起来用了多个“专家智能体”协作，但并没有证据表明这是一个多智能体共享记忆的框架。

它更像是一个单体的、拥有多个“脑区”的智能体。

写在最后

Google 这次开源，给了行业一个极其诱人的模板：更轻量的架构、更低的运维成本、更接近人类直觉的记忆方式。

但在我看来，这更像是一场豪赌。

赌的是 LLM 的推理能力已经强到可以取代专门的检索算法；赌的是企业愿意为了“简单”而承担“漂移”的风险。

能不能记住，已经不是问题；能不能“负责任”地记住，才是这道题的终极解。

【glm-5锐评】：向量数据库连夜修改简历，LLM 笑着说“你的活我也能干”，但这到底是技术升级，还是把锅甩给了更贵的脑子？

参考链接：
https://venturebeat.com/orchestration/google-pm-open-sources-always-on-memory-agent-ditching-vector-databases-for