一个价值5000万美元的"打脸"

2024年春天,硅谷有一个很流行的判断:

向量数据库,要凉了。

理由很简单——Claude 3支持20万token上下文窗口,GPT-4 Turbo直接飙到128K。动辄百万token的上下文窗口,似乎意味着"把所有资料直接扔给AI"不再是梦。那专门存向量、做检索的数据库,还有什么存在必要?

RAG(检索增强生成)只是过渡方案。Agent才是未来。而Agent自己会管理记忆,向量检索这种"苦力活",终将被甩进历史的垃圾堆。

这个逻辑,漂亮、整洁、几乎无懈可击。

直到2026年3月12日。

一家叫Qdrant的柏林公司宣布完成5000万美元B轮融资。两年前他们刚拿过2800万美元。这不是重点。重点是——

融资公告里藏了一句话,把上面那个"完美逻辑"砸得稀碎:

"检索问题没有因为Agent的到来而缩小。它扩大了,而且变得更难。"

人类几分钟一次,Agent每秒几百次

Qdrant CEO Andre Zayarni 说了句大实话:

"人类几分钟做几次查询。Agent每秒做几百甚至几千次查询,只是为了收集足够的信息来做出决策。"

注意这个量级差异。

人类用户点一次搜索,等两秒觉得慢;Agent程序每秒打几百次搜索,每一次延迟都会在它的"思维链条"里产生连锁反应。

这意味着什么?

意味着RAG时代的那套检索架构,根本扛不住Agent的负载。

举个例子。传统RAG大概是这个流程:用户提问 → 检索N个相关文档 → 丢给大模型生成回答。

但Agent的检索模式完全不同。

以GlassDollar为例——这家公司帮西门子、马勒这些巨头评估创业公司。用户用自然语言描述需求,系统要从几百万家公司里筛选出最匹配的。

它的检索流程是这样的:

  1. 用户输入一个需求
  2. 系统把一个prompt拆成多个并行查询
  3. 每个查询从不同角度抓取候选公司
  4. 结果汇总、重排序、返回

一个请求 = N次检索。

这已经不是什么"检索增强生成"了,这是"检索即架构"。

GlassDollar从Elasticsearch迁移到Qdrant之后,成本降了40%,用户参与度提升了3倍。

他们砍掉了一层"关键词补偿层"——之前用Elasticsearch时,语义检索不准,必须额外加一层关键词搜索来兜底。迁移之后,这层补丁不需要了。

三个"通用方案"扛不住的场景

通用数据库不是不能存向量。Postgres有vector类型,Snowflake有,Redis有,几乎所有主流数据库都支持向量。

但Qdrant抛出了三个"通用方案必跪"的场景:

第一,文档规模。

在通用数据库里,漏检索一条不是延迟问题,是决策质量灾难。Agent单次推理可能调用十次检索,每一次漏掉关键信息,最终决策就会偏到姥姥家。

第二,写入负载。

新数据进库之后,要经过索引优化才能被高效检索。在这段"冷却期"里,搜最新数据又慢又不准。对Agent来说,这恰恰是它最需要准确性的时刻。

第三,分布式延迟。

Agent可能同时调用多个工具,每个工具背后可能是一个独立的数据库实例。只要有一个副本拖了后腿,整个Agent turn的延迟就会爆炸。

这三点,Qdrant在1.17版本里分别给出了解法:

  • 相关性反馈查询:用轻量级模型信号调整下一轮检索的相似度评分,不用重新训练embedding模型
  • 延迟扇出:第一副本超时,自动查第二副本
  • 集群级统一遥测:一个面板看整个分布式集群的健康状况

"我们不想再叫自己向量数据库"

采访里有句话特别有意思。

Zayarni说:"我们正在为AI时代构建信息检索层。数据库是存用户数据的。如果搜索结果质量很重要,你需要的是搜索引擎。"

AI配图

这句话翻译一下就是:

向量这个数据类型,已经不是护城河了。所有数据库都能存向量。真正的竞争是——谁能在大规模生产环境里,把检索质量做上去。

这让我想起云计算圈的一个老规律:

当某个能力变成所有平台的"标配"时,真正的战场就会迁移到更上层。

数据库加向量,就像汽车加自动驾驶——大家都能加,但能加出效果的,凤毛麟角。

Zayarni还给了个很实用的建议:

"刚起步时,用你现有技术栈里的向量能力就行。等规模逼得你不得不迁移时,你自然会来找我们。"

"我们每天都能看到这样的公司——他们从Postgres开始,觉得'够用了'。然后发现真的不够用。"

两个"用脚投票"的案例

说再多理论,不如看实际用户怎么选。

案例一:GlassDollar

搜索是它的核心产品。用户描述需求 → 返回排名后的创业公司列表。

它之前的架构跑着10 million级别的索引文档量。从Elasticsearch迁到Qdrant之后:

  • 基础设施成本降40%
  • 删掉了关键词补偿层
  • 用户参与度提升3倍

Head of Product Kamen Kanev说了句很重的话:

"我们衡量成功的标准是recall。如果最好的公司不在结果里,其他一切都没意义。用户会失去信任。"

案例二:&AI

这家公司做专利诉讼基础设施。它的AI Agent Andy要在数十年、多个司法管辖区的数亿份文档里做语义搜索。

重点在于:专利律师不会直接相信AI生成的文本。AI说的每一句话,都必须锚定在真实文档里。

AI配图

Founder & CTO Herbie Turner的原话:

"我们的整个架构设计,核心目标是通过把检索做成底层原语,来最小化幻觉风险。生成不是核心,检索才是。"

"Andy这个Agent是构建在Qdrant之上的。Agent是界面,vector database是ground truth。"

什么时候该"毕业"了?

文章最后,Qdrant给了一个很诚恳的"自检清单":

如果你符合以下任一条件,可能该认真考虑专用检索基础设施了——

  • 检索质量和业务结果直接挂钩
  • 你的查询模式涉及扩展、多阶段重排序或并行工具调用
  • 你的数据量级进入了几千万文档的区间

Kamen Kanev总结得更直接:

"现在有很多噪音,讨论什么能取代检索层。但对于那些'检索质量就是产品质量'的公司来说——漏掉一个结果就会造成真实业务后果——你需要专用的搜索基础设施。"

尾声

AI配图

这篇稿子让我想起一个规律:

科技领域最危险的观点,是"某个技术会被另一个技术直接杀死"。

上下文窗口变长,没有杀死向量检索——它只是把检索问题从"找得到"推到了"找得准、找得快、找得多"。

Agent时代需要的不是更长的记忆,而是更强的检索。

因为记忆是"记住",检索是"找到"。

而"找到",从来都不是一件简单的事。

【MiniMax-M2.1锐评】:这篇文章精准捕捉了AI圈一个被普遍误判的趋势,用"反直觉+数据+案例"的三连击,把一个偏门的技术新闻写出了商业故事的张力。最后落点"找到从来都不简单",既扣题又留有余韵。

参考链接:
https://venturebeat.com/data/agents-dont-replace-vector-search-they-make-it-harder-to-get-right