5000万美金砸向一个"过气"赛道：所有人都判断错了

一个价值5000万美元的"打脸"

2024年春天，硅谷有一个很流行的判断：

向量数据库，要凉了。

理由很简单——Claude 3支持20万token上下文窗口，GPT-4 Turbo直接飙到128K。动辄百万token的上下文窗口，似乎意味着"把所有资料直接扔给AI"不再是梦。那专门存向量、做检索的数据库，还有什么存在必要？

RAG（检索增强生成）只是过渡方案。Agent才是未来。而Agent自己会管理记忆，向量检索这种"苦力活"，终将被甩进历史的垃圾堆。

这个逻辑，漂亮、整洁、几乎无懈可击。

直到2026年3月12日。

一家叫Qdrant的柏林公司宣布完成5000万美元B轮融资。两年前他们刚拿过2800万美元。这不是重点。重点是——

融资公告里藏了一句话，把上面那个"完美逻辑"砸得稀碎：

"检索问题没有因为Agent的到来而缩小。它扩大了，而且变得更难。"

人类几分钟一次，Agent每秒几百次

Qdrant CEO Andre Zayarni 说了句大实话：

"人类几分钟做几次查询。Agent每秒做几百甚至几千次查询，只是为了收集足够的信息来做出决策。"

注意这个量级差异。

人类用户点一次搜索，等两秒觉得慢；Agent程序每秒打几百次搜索，每一次延迟都会在它的"思维链条"里产生连锁反应。

这意味着什么？

意味着RAG时代的那套检索架构，根本扛不住Agent的负载。

举个例子。传统RAG大概是这个流程：用户提问 → 检索N个相关文档 → 丢给大模型生成回答。

但Agent的检索模式完全不同。

以GlassDollar为例——这家公司帮西门子、马勒这些巨头评估创业公司。用户用自然语言描述需求，系统要从几百万家公司里筛选出最匹配的。

它的检索流程是这样的：

用户输入一个需求
系统把一个prompt拆成多个并行查询
每个查询从不同角度抓取候选公司
结果汇总、重排序、返回

一个请求 = N次检索。

这已经不是什么"检索增强生成"了，这是"检索即架构"。

GlassDollar从Elasticsearch迁移到Qdrant之后，成本降了40%，用户参与度提升了3倍。

他们砍掉了一层"关键词补偿层"——之前用Elasticsearch时，语义检索不准，必须额外加一层关键词搜索来兜底。迁移之后，这层补丁不需要了。

三个"通用方案"扛不住的场景

通用数据库不是不能存向量。Postgres有vector类型，Snowflake有，Redis有，几乎所有主流数据库都支持向量。

但Qdrant抛出了三个"通用方案必跪"的场景：

第一，文档规模。

在通用数据库里，漏检索一条不是延迟问题，是决策质量灾难。Agent单次推理可能调用十次检索，每一次漏掉关键信息，最终决策就会偏到姥姥家。

第二，写入负载。

新数据进库之后，要经过索引优化才能被高效检索。在这段"冷却期"里，搜最新数据又慢又不准。对Agent来说，这恰恰是它最需要准确性的时刻。

第三，分布式延迟。

Agent可能同时调用多个工具，每个工具背后可能是一个独立的数据库实例。只要有一个副本拖了后腿，整个Agent turn的延迟就会爆炸。

这三点，Qdrant在1.17版本里分别给出了解法：

相关性反馈查询：用轻量级模型信号调整下一轮检索的相似度评分，不用重新训练embedding模型
延迟扇出：第一副本超时，自动查第二副本
集群级统一遥测：一个面板看整个分布式集群的健康状况

"我们不想再叫自己向量数据库"

采访里有句话特别有意思。

Zayarni说："我们正在为AI时代构建信息检索层。数据库是存用户数据的。如果搜索结果质量很重要，你需要的是搜索引擎。"

AI配图

这句话翻译一下就是：

向量这个数据类型，已经不是护城河了。所有数据库都能存向量。真正的竞争是——谁能在大规模生产环境里，把检索质量做上去。

这让我想起云计算圈的一个老规律：

当某个能力变成所有平台的"标配"时，真正的战场就会迁移到更上层。

数据库加向量，就像汽车加自动驾驶——大家都能加，但能加出效果的，凤毛麟角。

Zayarni还给了个很实用的建议：

"刚起步时，用你现有技术栈里的向量能力就行。等规模逼得你不得不迁移时，你自然会来找我们。"

"我们每天都能看到这样的公司——他们从Postgres开始，觉得'够用了'。然后发现真的不够用。"

两个"用脚投票"的案例

说再多理论，不如看实际用户怎么选。

案例一：GlassDollar

搜索是它的核心产品。用户描述需求 → 返回排名后的创业公司列表。

它之前的架构跑着10 million级别的索引文档量。从Elasticsearch迁到Qdrant之后：

基础设施成本降40%
删掉了关键词补偿层
用户参与度提升3倍

Head of Product Kamen Kanev说了句很重的话：

"我们衡量成功的标准是recall。如果最好的公司不在结果里，其他一切都没意义。用户会失去信任。"

案例二：&AI

这家公司做专利诉讼基础设施。它的AI Agent Andy要在数十年、多个司法管辖区的数亿份文档里做语义搜索。

重点在于：专利律师不会直接相信AI生成的文本。AI说的每一句话，都必须锚定在真实文档里。

AI配图

Founder & CTO Herbie Turner的原话：

"我们的整个架构设计，核心目标是通过把检索做成底层原语，来最小化幻觉风险。生成不是核心，检索才是。"

"Andy这个Agent是构建在Qdrant之上的。Agent是界面，vector database是ground truth。"

什么时候该"毕业"了？

文章最后，Qdrant给了一个很诚恳的"自检清单"：

如果你符合以下任一条件，可能该认真考虑专用检索基础设施了——

检索质量和业务结果直接挂钩
你的查询模式涉及扩展、多阶段重排序或并行工具调用
你的数据量级进入了几千万文档的区间

Kamen Kanev总结得更直接：

"现在有很多噪音，讨论什么能取代检索层。但对于那些'检索质量就是产品质量'的公司来说——漏掉一个结果就会造成真实业务后果——你需要专用的搜索基础设施。"

尾声

AI配图

这篇稿子让我想起一个规律：

科技领域最危险的观点，是"某个技术会被另一个技术直接杀死"。

上下文窗口变长，没有杀死向量检索——它只是把检索问题从"找得到"推到了"找得准、找得快、找得多"。

Agent时代需要的不是更长的记忆，而是更强的检索。

因为记忆是"记住"，检索是"找到"。

而"找到"，从来都不是一件简单的事。

【MiniMax-M2.1锐评】：这篇文章精准捕捉了AI圈一个被普遍误判的趋势，用"反直觉+数据+案例"的三连击，把一个偏门的技术新闻写出了商业故事的张力。最后落点"找到从来都不简单"，既扣题又留有余韵。

参考链接：
https://venturebeat.com/data/agents-dont-replace-vector-search-they-make-it-harder-to-get-right