文档解析规则

本文介绍了文档自定义段落解析层级规则及解析策略管理。

功能概述

不同文档的内容结构可能不尽相同,对不同内容结构的文档可自定义其文档解析规则的配置,优化文档解析效果从而优化基于文档知识的问答效果。

自定义段落解析层级规则

当前解析规则采用正则编写,具体编写规则如下:

image

类别

规则

配置内容

#

##

###

####

#####

^# .*

^## .*

^### .*

^#### .*

^##### .*

image

第一章

第一节

第一条

^第[^章]+章.*

^第[^节]+节.*

^第[^条]+条.*

image

一、

(一)

1、

(1)

^[一二三四五六七八九十]+\、.*

^[\(\(][一二三四五六七八九十]+[\)\)]+.*

^[0-9]+、.*

^[0-9]+).*

image

1

1.1

1.1.1

1.1.1.1

1.1.1.1.1

^[0-9]+[^0-9\、\)\)\%]+

^[0-9]+\.[0-9]+[^0-9]+

^[0-9]+\.[0-9]+\.[0-9]+[^0-9]+

^[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+[^0-9]+

^[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+[^0-9]+

image

自定义拆分和合并规则

  • 分段:当前标题层级及更高层级的内容自动切分为多个片段。

  • 默认:使用系统默认分段或合并规则。

  • 合并:当前标题层级及更低层级的内容自动合并为一个片段。

image

image

解析策略管理

  1. 登录智能对话机器人管理控制台,进入具体机器人空间,选择知识库>文档管理进入文档知识管理界面。

  2. 单击解析策略管理,可对已有解析策略进行编辑和删除操作。

  3. 单击新建解析策略,可新建一种解析策略供用户使用。相关字段的填写请参见文档知识管理文档解析设置部分内容。