本文介绍了文档自定义段落解析层级规则及解析策略管理。
功能概述
不同文档的内容结构可能不尽相同,对不同内容结构的文档可自定义其文档解析规则的配置,优化文档解析效果从而优化基于文档知识的问答效果。
自定义段落解析层级规则
当前解析规则采用正则编写,具体编写规则如下:
类别 | 规则 | 配置内容 |
# ## ### #### ##### | ^# .* ^## .* ^### .* ^#### .* ^##### .* | |
第一章 第一节 第一条 | ^第[^章]+章.* ^第[^节]+节.* ^第[^条]+条.* | |
一、 (一) 1、 (1) | ^[一二三四五六七八九十]+\、.* ^[\(\(][一二三四五六七八九十]+[\)\)]+.* ^[0-9]+、.* ^[0-9]+).* | |
1 1.1 1.1.1 1.1.1.1 1.1.1.1.1 | ^[0-9]+[^0-9\、\)\)\%]+ ^[0-9]+\.[0-9]+[^0-9]+ ^[0-9]+\.[0-9]+\.[0-9]+[^0-9]+ ^[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+[^0-9]+ ^[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+\.[0-9]+[^0-9]+ |
自定义拆分和合并规则
分段:当前标题层级及更高层级的内容自动切分为多个片段。
默认:使用系统默认分段或合并规则。
合并:当前标题层级及更低层级的内容自动合并为一个片段。
解析策略管理
文档内容是否对您有帮助?