文档

文档解析规则自定义示例

功能概述

不同文档的内容结构可能不尽相同,对不同的文档可自定义其文档解析规则的配置,优化文档解析效果从而优化基于文档知识的问答效果。

功能入口

  • 导入文档时自定义解析规则

    1. 进入有关机器人空间后,选择知识管理>文档管理,进入文档管理界面;

    2. 单击“导入文档”按钮,进行文档导入;

    3. 根据实际业务需求,上传需导入文档后,点击下一步按钮,进行文档解析设置;

    4. 在文档解析设置窗口即可进行有关文档解析规则配置。imageimage

  • 导入文档后自定义解析规则(基于自定义解析规则重新解析有关文档)

    1. 进入有关机器人空间后,选择知识管理>文档管理,进入文档管理界面;

    2. 单击有关文档右侧“查看”按钮,进入文档详情查看界面;

    3. 单击“解析设置”按钮后,在解析设置中选择“层级解析模式”为“规则解析>自定义”即可。imageimage

自定义解析规则示例

自定义解析层级规则

  • 自定义解析规则规范:当前解析规则采用正则语言编写,下文提供具体编写示例。

  • 自定义解析规则示例:

image

类别

规则

配置内容

#

##

###

####

#####

^# .*

^## .*

^### .*

^#### .*

^##### .*

image.png

一、

(一)

1、

1)

^[一二三四五六七八九十]+、.*

^([一二三四五六七八九十]+).*

^[0-9]+、.*

^[0-9]+).*

image.png

第一章

第一节

第一条

^第[^章]+章.*

^第[^节]+节.*

^第[^条]+条.*

image.png

自定义拆分和合并规则

imageimage

  • 分段:当前标题层级及更高层级的内容自动切分为多个片段。

  • 默认:使用系统默认分段或合并规则。

  • 合并:当前标题层级及更低层级的内容自动合并为一个片段。

  • 本页导读 (0)
文档反馈