RAGflow分片策略与文档解析器（一）11种RAGflow分块方法详解！

最新推荐文章于 2025-06-21 20:11:47 发布

大模型面微调_

最新推荐文章于 2025-06-21 20:11:47 发布

阅读量1.4k

点赞数 11

CC 4.0 BY-SA版权

文章标签：大模型 LLM ai 人工智能大模型入门 RAG RAGFlow

本文链接：https://blog.csdn.net/Code1994/article/details/148492536

在使用智能系统处理海量文档时，你是否遇到过这样的困扰：输入问题后，得到的答案要么答非所问，要么信息碎片化，无法精准命中需求？其实，这背后很大程度上是知识切片环节出了问题。而 RAGflow 的分片策略，就像是一把精准的 “手术刀”，能巧妙解决这些难题，让知识检索变得既精准又高效。

传统的文本切片方式，往往采用固定长度分割或简单的按段落划分，这种 “一刀切” 的做法，在面对复杂文档时，容易割裂知识的完整性，导致检索结果出现偏差。想象一下，一篇包含多个专业知识点、逻辑紧密的学术论文，若被随意切割，当用户检索特定概念时，系统很可能无法关联到完整且准确的内容。

其实在项目中，我们也碰到了客户经常问这些问题，我们的文档，如何采用更加合理的分块策略，才能更好的查询到所需的数据，这些才是客户更加关注的。

那我们来看下RAGflow提供了哪些分块的方法

一、切片方法

在这里插入图片描述

General 分块方法：

支持的文件格式为DOCX、XLSX、XLS (Excel97~2003)、PPT、PDF、TXT、JPEG、JPG、PNG、TIF、GIF、CSV、JSON、EML、HTML。

此方法将简单的方法应用于块文件：

系统将使用视觉检测模型将连续文本分割成多个片段。
接下来，这些连续的片段被合并成Token数不超过“Token数”的块。

Q&A 分块方法：

此块方法支持 excel 和 csv/txt 文件格式。

如果文件是 excel 格式，则应由两个列组成没有标题：一个提出问题，另一个用于答案，答案列之前的问题列。多张纸是只要列正确结构，就可以接受。
如果文件是 csv/txt 格式以 UTF-8 编码且用 TAB 作分开问题和答案的定界符。
未能遵循上述规则的文本行将被忽略，并且每个问答对将被认为是一个独特的部分。

Resume分块方法：

支持的文件格式为DOCX、PDF、TXT。

简历有多种格式，就像一个人的个性一样，但我们经常必须将它们组织成结构化数据，以便于搜索。
我们不是将简历分块，而是将简历解析为结构化数据。作为HR，你可以扔掉所有的简历，您只需与’RAGFlow’交谈即可列出所有符合资格的候选人。

Manual分块方法：

仅支持PDF。

我们假设手册具有分层部分结构。我们使用最低的部分标题作为对文档进行切片的枢轴。因此，同一部分中的图和表不会被分割，并且块大小可能会很大。

在这里插入图片描述

Table分块方法：

支持XLSX和CSV/TXT格式文件。

对于 csv 或 txt 文件，列之间的分隔符为 TAB。
第一行必须是列标题。
列标题必须是有意义的术语，以便我们的大语言模型能够理解。列举一些同义词时最好使用斜杠’/'来分隔，甚至更好使用方括号枚举值，例如 ‘gender/sex(male,female)’。
表中的每一行都将被视为一个块。

在这里插入图片描述

Paper 分块方法：

仅支持PDF文件。

如果我们的模型运行良好，论文将按其部分进行切片，例如摘要、1.1、1.2等。
这样做的好处是LLM可以更好的概括论文中相关章节的内容，产生更全面的答案，帮助读者更好地理解论文。缺点是它增加了 LLM 对话的背景并增加了计算成本，所以在对话过程中，你可以考虑减少‘topN’的设置。

在这里插入图片描述

Book分块方法：

支持的文件格式为DOCX、PDF、TXT。

由于一本书很长，并不是所有部分都有用，如果是 PDF，请为每本书设置页面范围，以消除负面影响并节省分析计算时间。

Laws分块方法：

支持的文件格式为DOCX、PDF、TXT。

法律文件有非常严格的书写格式。我们使用文本特征来检测分割点。
chunk的粒度与’ARTICLE’一致，所有上层文本都会包含在chunk中。

Presentation 分块方法：

支持的文件格式为PDF、PPTX。

每个页面都将被视为一个块。并且每个页面的缩略图都会被存储。
您上传的所有PPT文件都会使用此方法自动分块，无需为每个PPT文件进行设置。

One分块方法：

支持的文件格式为DOCX、EXCEL、PDF、TXT。

对于一个文档，它将被视为一个完整的块，根本不会被分割。
如果你要总结的东西需要一篇文章的全部上下文，并且所选LLM的上下文长度覆盖了文档长度，你可以尝试这种方法。

Tag分块方法：

Tag 分块方法支持XLSX和CSV/TXT文件格式。

使用“Tag”分块方法的知识库用作标签集.其他知识库可以把标签集当中的标签按照相似度匹配到自己对应的文本块中，对这些知识库的查询也将根据此标签集对自己进行标记。
使用“标签”作为分块方法的知识库不参与 RAG 检索过程。
标签集中的每个文本分块是都是相互独立的标签和标签描述的文本对。
如果文件为XLSX格式，则它应该包含两列无标题：一列用于标签描述，另一列用于标签，标签描述列位于标签列之前。支持多个工作表，只要列结构正确即可。
如果文件为 CSV/TXT 格式，则必须使用 UTF-8 编码并以 TAB 作为分隔符来分隔内容和标签。
在标签列中，标签之间使用英文逗号分隔。不符合上述规则的文本行将被忽略。