老实讲,现在的企业级 RAG(检索增强生成)系统,大部分都在“假装”很聪明。

大家都听过那个诱人的承诺:把你的 PDF 文档扔进库里,接上一个大模型,瞬间就能实现企业知识的民主化。听起来是不是很美?

但在那些依赖重型工程的行业里,现实往往很骨感。

工程师们跑去问具体的架构问题,AI 给的答案却经常是满嘴跑火车,一本正经地胡说八道。很多人第一反应是:这模型是不是太笨了?我是不是得买个更贵的?

大错特错。

问题根本不在 LLM 身上,而在你处理数据的前端环节。大多数 RAG 系统根本没在“读”文档,它们只是在把文档当成废纸一样“切碎”。

固定切分:一把不知轻重的钝刀

AI配图

随便打开一个标准的 Python RAG 教程,他们教你的第一件事通常是什么?

按字符数切分文本。

比如每 500 个字符切一刀。对于普通的散文,这招确实管用。但对于那些严谨的企业技术手册来说,这简直是灾难。想象一下,你的 PDF 里有一张关于安全规格的表格,跨度是 1000 个 token。而你的系统设定是 500 个 token 切一刀。

咔嚓一声。

“电压限制”这个标题被切在了上一块,具体的数值“240V”被切在了下一块。

这时候,向量数据库把它们当成两条毫无关联的数据存了进去。当工程师问“电压限制是多少”时,检索系统只找到了标题,却找不到数值。

LLM 也是巧妇难为无米之炊,被逼急了,它只能瞎猜。这就像把一本书的每一页都撕成两半,然后指望有人能读懂其中的逻辑。这怎么可能?

别数数了,学会像人一样阅读

要想让 RAG 在生产环境里真正好用,第一步就是抛弃那种 arbitrary(任意)的字符计数法。

我们需要的是“文档智能”。

这其实不是什么黑科技,就是用一些能识别布局的工具(比如 Azure Document Intelligence),根据文档原本的章节、段落来分割数据,而不是看它有多少个字。这样做有两个巨大的好处:

逻辑内聚: 哪怕描述某个机械零件的段落有长有短,系统也会把它作为一个整体保留下来,存成一个向量。

表格保全: 解析器能识别出表格的边界,把整个格子强行塞进一个数据块里。这对准确检索至关重要,因为行和列的关系一旦断开,数据就失去了意义。

我们在内部的定性基准测试里发现,从固定切分切换到语义切分后,表格数据的检索准确率有了显著提升。技术规格被“肢解”的现象,基本绝迹了。## 那些被 AI 忽视的“暗数据”

如果你以为切分对了就万事大吉,那还是太天真了。

企业 RAG 的第二个死穴是“失明”。

企业的核心知识产权(IP)往往不是躺在文字里的,而是藏在那些复杂的流程图、示意图和系统架构图里。

标准的嵌入模型(比如 text-embedding-3-small),本质上是个“瞎子”。它看不见图片。在索引阶段,这些图表直接被跳过了。

如果答案就在一张流程图里,你的 RAG 系统只会两手一摊告诉你:我不知道。这不仅是浪费,简直是暴殄天物。

让图表“开口说话”

怎么解决这个问题?现在的实用方案是“多模态文本化”。

AI配图

在数据进入向量库之前,我们加了一道工序,用具备视觉能力的模型(比如 GPT-4o)来预处理。

这一步大概分三招:

  1. OCR 提取: 用高精度的光学字符识别,把图片里的文字标签抠出来。
  2. 生成式描述: 让视觉模型“看”图,然后生成一段详细的自然语言描述。比如“一张流程图,显示如果温度超过 50 度,过程 A 会导向过程 B”。
  3. 混合嵌入: 把这段生成的描述转化成向量,作为元数据存在原图旁边。这时候,神奇的事情发生了。

当用户搜索“温度过程流”时,向量搜索匹配到的其实是那段描述文字,尽管原始源头只是一张 PNG 图片。

敢不敢把“作业”亮出来?

对于企业应用来说,准确率只是入场券,另一半的关键在于“可验证性”。

现在的 RAG 界面大多是这样的:机器人给一段文字答案,然后扔给你一个文件名,说“答案出自这里”。

说实话,这太扯了。

用户还得自己去下载 PDF,然后翻箱倒柜地找那一页来验证。对于高危行业的问题,比如“这化学品易燃吗?”,没人敢信这种只会给文件名的机器人。我们需要的是一种“可视化引用”的架构。

因为我们在预处理阶段保留了文本块和原始图片的链接,UI 完全可以在给出文字回答的同时,把生成该答案所依据的图表或表格直接展示出来。

这种“Show Your Work”(展示你的作业)的机制,能让人类瞬间验证 AI 的推理过程。这才是填平那道“信任鸿沟”的唯一办法。

未来不需要切分了吗?

把图片转成文字描述,虽然现在是主流,但技术演进很快。

我们已经看到了原生多模态嵌入(比如 Cohere 的 Embed 4)的崛起。这种模型能直接把文本和图片映射到同一个向量空间,中间根本不需要转述这一步。虽然我们现在为了追求极致控制,还在用多阶段流水线,但未来的数据基础设施,大概率是“端到端”向量化,直接把页面布局都塞进去。

还有个变数是长上下文 LLM

如果以后把整本手册扔进上下文窗口变得便宜又快捷,那我们还需要切分吗?也许吧。

但在百万 token 调用的延迟和成本没打下来之前,语义预处理依然是实时系统里性价比最高的策略。

RAG 演示和生产系统的区别,就在于它怎么处理企业数据那些乱七八糟的现实。别再把文档当成简单的文本字符串了。如果你想让 AI 真正懂你的业务,先学会尊重文档的结构。

只有把那些切碎的逻辑拼回来,把被忽视的图表唤醒,你的 RAG 才能从一个只会“关键词搜索”的工具,进化成真正的“知识助手”。

参考链接:
https://venturebeat.com/orchestration/most-rag-systems-dont-understand-documents-they-shred-them