文档

文档上传格式要求

更新时间:

重要
  • 我们于2024年5月3日0点调整升级原版本RAG应用创建链路,届时原RAG历史上传存储的数据将保留在菜单栏【企业知识库-V1】中。原企业知识库支持历史RAG应用的数据编辑、调用暂不受影响。但原版本企业知识库数据与新版本应用不互通。如未来企业知识库数据需要迁移,我们将提前给予您通知说明。您可以通过数据中心来构建新版RAG应用,详细操作请参考低代码快速构建RAG应用

  • 2024年5月3日0点之后开通阿里云百炼的用户,默认使用新版本企业知识库。新版本企业知识库的相关配置,请参见知识索引

文档内容格式建议

  1. 文档各级标题层级清晰,各标题下内容清晰。

  2. 文档中尽量不要有表格和图片(复杂表格会影响整体文档解析结果)。

  3. 文档中尽量不要有水印。

  4. 列表中间的某一条之下尽量不要再分级。

文档标题层级不够清晰-示例

原文档

一级标题为“四、奖品使用规则:”,内容有“奖品1:...”和“奖品2:...”。

image.png

处理后会出现的问题

将“奖品2:...”解析为“奖品1:...”的下一级标题。 建议将文档中的“奖品1:...”以及“奖品2:...”设置为带序号的二级标题。

文档中有水印-示例

原文档

文档带有水印,总体内容有三条。

image.png

处理后会出现的问题

第三条会被分到一个chunk,但是由于水印部分被识别成文字,导致“(五)十一等耕地12万元/亩”后会多出“政府公报”几个字,并且由于“政府公报”的水印位置比较靠前,会导致(一)(二)(三)(四)(五)的顺序被打乱,变成(一)(五)(三)(四)(二)。

列表中间的某一条之下再分级-示例

原文档

一级标题“活动规则”下是一个有序列表,其中的第3条“活动介绍”之下又是一个列表(分为a和b)。

image.png

处理后会出现的问题

一级标题“活动规则”下是一个有序列表,其中的第3条“活动介绍”之下又是一个列表。这会导致“活动介绍”被当成二级标题,其之后的所有内容被误当成“活动介绍”二级标题之下的内容。 建议不要在列表之下再分级,如果需要尽量把需要分级的点放置在列表的最后一条。

一个比较好的示例

●各标题下内容相对独立且清晰。

●无水印。

●标题之下是列表,但列表之下不再分级。

●无表格、无图片。

image.png