你的企业 AI 为什么总在胡说八道？可能不是模型太笨，而是你把文档“切碎”了

老实讲，现在的企业级 RAG（检索增强生成）系统，大部分都在“假装”很聪明。

大家都听过那个诱人的承诺：把你的 PDF 文档扔进库里，接上一个大模型，瞬间就能实现企业知识的民主化。听起来是不是很美？

但在那些依赖重型工程的行业里，现实往往很骨感。

工程师们跑去问具体的架构问题，AI 给的答案却经常是满嘴跑火车，一本正经地胡说八道。很多人第一反应是：这模型是不是太笨了？我是不是得买个更贵的？

大错特错。

问题根本不在 LLM 身上，而在你处理数据的前端环节。大多数 RAG 系统根本没在“读”文档，它们只是在把文档当成废纸一样“切碎”。

固定切分：一把不知轻重的钝刀

AI配图

随便打开一个标准的 Python RAG 教程，他们教你的第一件事通常是什么？

按字符数切分文本。

比如每 500 个字符切一刀。对于普通的散文，这招确实管用。但对于那些严谨的企业技术手册来说，这简直是灾难。想象一下，你的 PDF 里有一张关于安全规格的表格，跨度是 1000 个 token。而你的系统设定是 500 个 token 切一刀。

咔嚓一声。

“电压限制”这个标题被切在了上一块，具体的数值“240V”被切在了下一块。

这时候，向量数据库把它们当成两条毫无关联的数据存了进去。当工程师问“电压限制是多少”时，检索系统只找到了标题，却找不到数值。

LLM 也是巧妇难为无米之炊，被逼急了，它只能瞎猜。这就像把一本书的每一页都撕成两半，然后指望有人能读懂其中的逻辑。这怎么可能？

别数数了，学会像人一样阅读

要想让 RAG 在生产环境里真正好用，第一步就是抛弃那种 arbitrary（任意）的字符计数法。

我们需要的是“文档智能”。

这其实不是什么黑科技，就是用一些能识别布局的工具（比如 Azure Document Intelligence），根据文档原本的章节、段落来分割数据，而不是看它有多少个字。这样做有两个巨大的好处：

逻辑内聚： 哪怕描述某个机械零件的段落有长有短，系统也会把它作为一个整体保留下来，存成一个向量。

表格保全： 解析器能识别出表格的边界，把整个格子强行塞进一个数据块里。这对准确检索至关重要，因为行和列的关系一旦断开，数据就失去了意义。

我们在内部的定性基准测试里发现，从固定切分切换到语义切分后，表格数据的检索准确率有了显著提升。技术规格被“肢解”的现象，基本绝迹了。## 那些被 AI 忽视的“暗数据”

如果你以为切分对了就万事大吉，那还是太天真了。

企业 RAG 的第二个死穴是“失明”。

企业的核心知识产权（IP）往往不是躺在文字里的，而是藏在那些复杂的流程图、示意图和系统架构图里。

标准的嵌入模型（比如 text-embedding-3-small），本质上是个“瞎子”。它看不见图片。在索引阶段，这些图表直接被跳过了。

如果答案就在一张流程图里，你的 RAG 系统只会两手一摊告诉你：我不知道。这不仅是浪费，简直是暴殄天物。

让图表“开口说话”

怎么解决这个问题？现在的实用方案是“多模态文本化”。

AI配图

在数据进入向量库之前，我们加了一道工序，用具备视觉能力的模型（比如 GPT-4o）来预处理。

这一步大概分三招：

OCR 提取： 用高精度的光学字符识别，把图片里的文字标签抠出来。
生成式描述： 让视觉模型“看”图，然后生成一段详细的自然语言描述。比如“一张流程图，显示如果温度超过 50 度，过程 A 会导向过程 B”。
混合嵌入： 把这段生成的描述转化成向量，作为元数据存在原图旁边。这时候，神奇的事情发生了。

当用户搜索“温度过程流”时，向量搜索匹配到的其实是那段描述文字，尽管原始源头只是一张 PNG 图片。

敢不敢把“作业”亮出来？

对于企业应用来说，准确率只是入场券，另一半的关键在于“可验证性”。

现在的 RAG 界面大多是这样的：机器人给一段文字答案，然后扔给你一个文件名，说“答案出自这里”。

说实话，这太扯了。

用户还得自己去下载 PDF，然后翻箱倒柜地找那一页来验证。对于高危行业的问题，比如“这化学品易燃吗？”，没人敢信这种只会给文件名的机器人。我们需要的是一种“可视化引用”的架构。

因为我们在预处理阶段保留了文本块和原始图片的链接，UI 完全可以在给出文字回答的同时，把生成该答案所依据的图表或表格直接展示出来。

这种“Show Your Work”（展示你的作业）的机制，能让人类瞬间验证 AI 的推理过程。这才是填平那道“信任鸿沟”的唯一办法。

未来不需要切分了吗？

把图片转成文字描述，虽然现在是主流，但技术演进很快。

我们已经看到了原生多模态嵌入（比如 Cohere 的 Embed 4）的崛起。这种模型能直接把文本和图片映射到同一个向量空间，中间根本不需要转述这一步。虽然我们现在为了追求极致控制，还在用多阶段流水线，但未来的数据基础设施，大概率是“端到端”向量化，直接把页面布局都塞进去。

还有个变数是长上下文 LLM。

如果以后把整本手册扔进上下文窗口变得便宜又快捷，那我们还需要切分吗？也许吧。

但在百万 token 调用的延迟和成本没打下来之前，语义预处理依然是实时系统里性价比最高的策略。

RAG 演示和生产系统的区别，就在于它怎么处理企业数据那些乱七八糟的现实。别再把文档当成简单的文本字符串了。如果你想让 AI 真正懂你的业务，先学会尊重文档的结构。

只有把那些切碎的逻辑拼回来，把被忽视的图表唤醒，你的 RAG 才能从一个只会“关键词搜索”的工具，进化成真正的“知识助手”。

参考链接：
https://venturebeat.com/orchestration/most-rag-systems-dont-understand-documents-they-shred-them