文档解析规则

功能概述

不同文档的内容结构可能不尽相同,对不同的文档可自定义其文档解析规则的配置,优化文档解析效果从而优化基于文档知识的问答效果。

功能介绍

自动解析分段

  • 功能说明:自动根据文档内容选择一种内置解析策略进行解析。

  • 功能入口:在机器人空间,选择知识管理>文档管理

    • 点击导入文档,在文档解析设置步骤。

    • 点击查看,在查看文档界面,点击重新解析,可进行文档解析。

    image

自定义解析策略

  • 功能说明:自主选择内置解析策略或自定义解析策略进行解析。

  • 功能入口:在机器人空间,选择知识管理>文档管理

    • 点击导入文档,在文档解析设置步骤。

    • 点击查看,在查看文档界面,点击重新解析,可进行文档解析。

    image

层级解析模式

自动识别解析

功能说明:通过OCR识别文档段落层级信息。

段落规则解析

功能说明:通过选择文档标题规则或自定义文档标题规则识别文档段落层级信息。image

自定义解析层级规则
  • 自定义解析规则规范:当前解析规则采用正则语言编写,下文提供具体编写示例。

  • 自定义解析规则示例:

image

类别

规则

配置内容

#

##

###

####

#####

^# .*

^## .*

^### .*

^#### .*

^##### .*

image.png

一、

(一)

1、

1)

^[一二三四五六七八九十]+、.*

^([一二三四五六七八九十]+).*

^[0-9]+、.*

^[0-9]+).*

image.png

第一章

第一节

第一条

^第[^章]+章.*

^第[^节]+节.*

^第[^条]+条.*

image.png

自定义拆分和合并规则
  • 分段:当前标题层级及更高层级的内容自动切分为多个片段。

  • 默认:使用系统默认分段或合并规则。

  • 合并:当前标题层级及更低层级的内容自动合并为一个片段。

image

image

智能推荐

  • 功能说明:大模型可以根据文档内容,推荐一种文档的解析规则,用户可以使用推荐的规则进行文档解析切片。

  • 功能入口:在机器人空间,选择知识管理>文档管理

    • 点击查看,在查看文档详情页面,点击重新解析,在自定义解析策略>段落规则解析模式中。

image