文档解析规则

更新时间:2024-12-10 08:43:24

本文介绍了文档自定义段落解析层级规则及解析策略管理。

功能概述

不同文档的内容结构可能不尽相同,对不同内容结构的文档可自定义其文档解析规则的配置,优化文档解析效果从而优化基于文档知识的问答效果。

自定义段落解析层级规则

当前解析规则采用正则编写,具体编写规则如下:

image

类别

规则

配置内容

类别

规则

配置内容

#

##

###

####

#####

^# .*

^## .*

^### .*

^#### .*

^##### .*

image

第一章

第一节

第一条

^第[^章]+章.*

^第[^节]+节.*

^第[^条]+条.*

image

一、

(一)

1、

(1)

^[一二三四五六七八九十]+\、.*

^[\(\(][一二三四五六七八九十]+[\)\)]+.*

^[0-9]+、.*

^[0-9]+).*

image

1

1.1

1.1.1

1.1.1.1

1.1.1.1.1

^[0-9]+[^0-9\、\)\)\%]+

^[0-9]+\.[0-9]+[^0-9]+

^[0-9]+\.[0-9]+\.[0-9]+[^0-9]+

^[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+[^0-9]+

^[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+[^0-9]+

image

自定义拆分和合并规则

  • 分段:当前标题层级及更高层级的内容自动切分为多个片段。

  • 默认:使用系统默认分段或合并规则。

  • 合并:当前标题层级及更低层级的内容自动合并为一个片段。

image

image

解析策略管理

  1. 登录智能对话机器人管理控制台,进入具体机器人空间,选择知识库>文档管理进入文档知识管理界面。

  2. 单击解析策略管理,可对已有解析策略进行编辑和删除操作。

  3. 单击新建解析策略,可新建一种解析策略供用户使用。相关字段的填写请参见文档知识管理文档解析设置部分内容。

  • 本页导读 (1)
  • 功能概述
  • 自定义段落解析层级规则
  • 自定义拆分和合并规则
  • 解析策略管理
AI助理

点击开启售前

在线咨询服务

你好,我是AI助理

可以解答问题、推荐解决方案等