文档知识管理

本文从机器人空间维度介绍了文档知识的导入流程以及对已导入文档知识的查看、转移、删除和搜索查询操作。

功能概述

文档知识指的是以文档形式存在的知识,如pdf、doc/docx、txt、markdown格式的文档。将文档导入系统后,机器人可以根据用户提问从文档中召回相关知识,然后结合LLM给出最终答案。

导入文档

说明

不同版本的业务空间可支持导入文档的数量有差别,如企业版支持最多上传5000个文档,有关具体版本对应的资源信息请参见资源限制和免费额度

  1. 登录智能对话机器人管理控制台,进入具体机器人空间,选择知识库>文档管理进入文档知识管理界面。

    image

  2. 单击导入文档,在导入文档窗口完成相关信息输入。

    • 文档类目:指文档所属类目,方便对文档知识进行分类。可以选择绑定业务空间内已有文档类目,也可以单击新建类目创建新的文档类目。

    • 导入文档限制条件:

      • 支持pdf、doc/docx、txt、markdown格式文档。

      • 单个文件:支持最多100页,txt小于200K,pdf小于100M,markdown小于200K,doc小于100M,docx小于100M。

      • 单次最多导入50个文件,超过50个请分批导入。

    • 生效配置:文档知识可以作用于对话问答的时间,可配置为永久生效(即在该机器人未下线前都可用于对话问答)、指定时间生效(即仅在所配置时间段内用于对话问答)、不生效。

    • 标签:支持对导入的文档进行标记。

  3. 单击下一步,进入文档解析设置窗口,根据实际业务需求,设置文档解析规则。

    image

    • 自动解析分段:自动根据文档内容选择一种内置解析策略进行解析。

    • 自定义解析策略:自主选择内置解析策略或自定义解析策略进行解析。

      • 解析策略:可选择已保存的自定义解析策略。

      • 解析内容:

        • 文字内容(必选):对文档中的文字内容进行解析,并可以作为知识点用于对话问答。

        • 段落标题(必选):对段落标题进行解析,并可以作为知识点用于对话问答。

        • 表格(非必选):文档内的表格内容会被解析为markdown,并可以作为知识点用于对话问答。

        • 图片(非必选):对图片内的文字内容进行解析,并可以作为知识点用于对话问答。

        • 目录(非必选):对文档内的目录内容进行解析,并可以作为知识点用于对话问答。

        • 页面页脚(非必选):对文档中的页眉页脚内容进行解析,并可以作为知识点用于对话问答。

      • 内容过滤:可通过正则表达式过滤掉文档中的特定内容片段。

      • 图片增强:开启后,文档解析时将自动生成图片描述用于机器人问答。现阶段免费试用。图片增强能力仅支持企业版和旗舰版。

      • 文档摘要:启用后,文档解析时对知识进行摘要总结。现阶段免费试用。

      • 文章标题:文章标题将用于文档路径片段,并将在对话中用于检索相关文档片段。

        • 识别标题:采用ocr或md格式识别文档内容中的文章标题,未识别时将默认使用文档名称作为文章标题。

        • 文档标题:直接使用文档名称作为文章标题。

      • 文档片段长度:文档切片最大字数上限,当前支持单个文档切片字数最多为800字。

      • 层级解析模式:设置文档段落层级的解析方式。

        • 自动识别解析:通过ocr识别文档段落层级信息。

        • 段落规则解析:通过选择文档标题规则或自定义文档标题规则识别文档段落层级信息。

      说明

      自定义文档解析规则和解析策略管理请参见文档解析规则

      • 保存解析策略:在导入文档过程中可以将当前的解析策略保存至解析策略管理中,便于后续复用。可选择新建解析策略和覆盖已有解析策略两种保存方式。

        image

  4. 单击确定,完成文档导入。

  5. 在已导入文档知识的右侧操作栏下,单击转移删除可对文档进行转移或删除操作。

    • 文档转移:将文档从一个类目转移到另一个类目。

    • 文档删除:删除知识中心有关文档。

      说明

      删除有关文档后,对应从有关文档中挖掘出的高频问答也会被删除。

查看已导入文档

  1. 登录智能对话机器人管理控制台,进入具体机器人空间,选择知识库>文档管理进入文档知识管理界面。

  2. 单击已导入文档右侧操作栏查看,即可查看有关文档内容和文档解析完成并切片后的信息。

    image

    • 上图左侧内容为原始文档内容;右侧内容为原始文档解析完成后切片的内容详情,支持对片段内容进行是否生效编辑删除操作。

      • 是否生效:打开开关,当前切片生效,进入大模型文档解析。

      • 编辑:单击编辑图标,支持对切片进行文本信息编辑和插入图片等操作。当文档解析或切片效果不佳时(如一个完整内容被切分为两个片段),可能会影响模型的最终问答效果。若存在此类问题,可通过手动编辑调整片段内容进行优化。image

      • 删除:单击删除图标,即可删除当前片段。

    • 重新解析:查看文档时,支持对文档内容进行重新解析。单击重新解析,有关重新解析的设置可参考本文的导入文档知识部分。

      image

      • 智能推荐:大模型能够根据文档内容推荐相应的文档解析规则,用户可以利用这些推荐的规则进行文档的解析与切片。

        image

    • 文档信息:

      • 元数据信息:指文档中带有关键信息的字段,可以作为检索条件,能有效过滤无关文档。具体操作文档请参见文档信息表

      • 随路信息:随路信息添加后,会随答案一起返回,随路信息不参与对话问答。

        image

查询已导入文档

对已导入文档支持普通搜索和高级搜索两种搜索查询支持。

image

  • 普通搜索:根据文档标题的关键字或文档内容的关键字进行搜索。

  • 高级搜索:支持根据文档的状态、编辑人、更新时间、生效时间和失效时间进行搜索。

    • 状态:指文档上传后,系统对文档的处理状态和自定义的生效状态

      • 处理状态:

        • 排队中:即文档正在排队待解析。

        • 解析中:即正在执行文档解析工作。

        • 处理中:即在文档解析完成后,系统进一步对文本内容进行向量化储存处理的过程。

        • 处理失败:即文档处理失败。

      • 生效状态:

        • 生效时间:即文档的有效时间,若当前时间在文档的生效时间内,文档生效,可以进行问答;反之则文档失效,不参与问答。

        • 生效中:即文档在当前时间有效,可参与问答。

        • 已失效:即文档在当前时间无效,不可参与问答。

        • 待生效:即文档正在解析中,还未生效,不可参与问答。