文档内容排版建议

文档的内容排版会显著影响RAG的效果。为此,本文为您提供一系列实用建议及示例,帮助您优化文档的内容排版

文档内容排版建议

  • 文档的各级标题层次分明,各标题下的内容表达清晰。

  • 文档中尽量不要有表格和图片(复杂表格会影响整体文档解析结果)。

  • 文档中尽量不要有水印。

  • 列表中间的某一条之下尽量不要再分级。

文档标题层级不够清晰-示例

原文档

一级标题为“四、奖品使用规则:”,内容有“奖品1:...”和“奖品2:...”。

image.png

处理后会出现的问题

将“奖品2:...”解析为“奖品1:...”的下一级标题。 建议将文档中的“奖品1:...”以及“奖品2:...”设置为带序号的二级标题。

文档中有水印-示例

原文档

文档带有水印,总体内容有三条。

image.png

处理后会出现的问题

第三条会被分到一个chunk,但是由于水印部分被识别成文字,导致“(五)十一等耕地12万元/亩”后会多出“政府公报”几个字,并且由于“政府公报”的水印位置比较靠前,会导致(一)(二)(三)(四)(五)的顺序被打乱,变成(一)(五)(三)(四)(二)。

列表中间的某一条之下再分级-示例

原文档

一级标题“活动规则”下是一个有序列表,其中的第3条“活动介绍”之下又是一个列表(分为ab)。

image.png

处理后会出现的问题

一级标题“活动规则”下是一个有序列表,其中的第3条“活动介绍”之下又是一个列表。这会导致“活动介绍”被当成二级标题,其之后的所有内容被误当成“活动介绍”二级标题之下的内容。 建议不要在列表之下再分级,如果需要尽量把需要分级的点放置在列表的最后一条。

一个比较好的示例

  • 各标题下内容相对独立且清晰。

  • 无水印。

  • 标题之下是列表,但列表之下不再分级。

  • 无表格、无图片。

image.png