我们于2024年5月3日0点调整升级原版本RAG应用创建链路,届时原RAG历史上传存储的数据将保留在菜单栏【企业知识库-V1】中。原企业知识库支持历史RAG应用的数据编辑、调用暂不受影响。但原版本企业知识库数据与新版本应用不互通。如未来企业知识库数据需要迁移,我们将提前给予您通知说明。您可以通过数据中心来构建新版RAG应用,详细操作请参考低代码快速构建RAG应用。
2024年5月3日0点之后开通阿里云百炼的用户,默认使用新版本企业知识库。新版本企业知识库的相关配置,请参见知识索引。
文档内容格式建议
文档各级标题层级清晰,各标题下内容清晰。
文档中尽量不要有表格和图片(复杂表格会影响整体文档解析结果)。
文档中尽量不要有水印。
列表中间的某一条之下尽量不要再分级。
文档标题层级不够清晰-示例
原文档
一级标题为“四、奖品使用规则:”,内容有“奖品1:...”和“奖品2:...”。
处理后会出现的问题
将“奖品2:...”解析为“奖品1:...”的下一级标题。 建议将文档中的“奖品1:...”以及“奖品2:...”设置为带序号的二级标题。
文档中有水印-示例
原文档
文档带有水印,总体内容有三条。
处理后会出现的问题
第三条会被分到一个chunk,但是由于水印部分被识别成文字,导致“(五)十一等耕地12万元/亩”后会多出“政府公报”几个字,并且由于“政府公报”的水印位置比较靠前,会导致(一)(二)(三)(四)(五)的顺序被打乱,变成(一)(五)(三)(四)(二)。
列表中间的某一条之下再分级-示例
原文档
一级标题“活动规则”下是一个有序列表,其中的第3条“活动介绍”之下又是一个列表(分为a和b)。
处理后会出现的问题
一级标题“活动规则”下是一个有序列表,其中的第3条“活动介绍”之下又是一个列表。这会导致“活动介绍”被当成二级标题,其之后的所有内容被误当成“活动介绍”二级标题之下的内容。 建议不要在列表之下再分级,如果需要尽量把需要分级的点放置在列表的最后一条。
一个比较好的示例
●各标题下内容相对独立且清晰。
●无水印。
●标题之下是列表,但列表之下不再分级。
●无表格、无图片。