文档知识管理

概念与作用

  • 概念:文档知识是指以文档的形式存在的知识,如PDF、doc/docx和TXT格式的文档。

  • 作用:结合通义版对话机器人的能力,将文档导入系统后,机器人将形成基于有关文档的业务知识,可直接根据文档中的内容对用户问题进行解答。

文档知识构建

导入文档

重要

不同版本可支持导入文档的数量有差别,如企业版(通义版)支持最多上传5000个文档,有关具体版本对应可使用资源信息可参考《产品计费》产品定价部分。

文档的导入可在业务空间下的知识中心进行,也可在机器人空间下的知识中心进行。机器人空间下导入的文档会直接绑定在对应机器人上,并进入业务空间可供其他机器人调用;业务空间下导入的文档不会直接绑定在任何机器人上,需要在具体机器人空间的知识中心进行绑定,具体绑定方法参考《配置机器人》知识配置部分。

说明

本文以在机器人空间下的知识中心对导入文档的流程进行介绍。

文档导入完整具体步骤如下:

  1. 进入有关机器人空间后,选择知识管理>文档管理,进入文档管理界面;

  2. 单击导入文档按钮,弹出导入文档窗口;

  3. 在导入文档窗口完成有关信息输入后,单击下一步按钮,进入文档解析设置窗口;

  4. 根据实际业务需求,设置文档解析规则后,单击确定按钮即可完成文档导入。

  • 导入文档

    • 类目:指文档所属类,方便对文档知识分类,单击新增类目按钮可新增文档类目;

    • 导入文档条件:

      • 支持PDF、doc/docx、TXT格式;

      • 单个文件支持最多100页;

      • 最多导入50个文件,超过50个请分批上传;

      • 导入文件大小限制:PDF 100M,doc 100M,docx 100M,TXT 200K;

    • 生效配置:文档知识的生效时间设置,可设置为永久生效、指定时间生效和不生效。

    • 标签:支持对导入的文档进行标记。

image

  • 文档解析设置

    • 自动解析分段:根据文档内容自动选择一种内置解析策略进行解析。

    • 自定义解析分段:自主选择内置解析策略或自定义解析策略进行解析

      • 解析策略

      • 解析内容

        • 文字内容:解析文档中的文字内容并用于对话问答。此选项必选。

        • 段落标题:勾选后,段落标题会进行解析并可用于对话问答。此选项必选。

        • 表格:勾选后,文档内的表格内容会进行解析为markdown并可用于对话问答。此选项非必选。

        • 图片:勾选后,图片内的文字内容会进行解析并可用于对话问答。此选项非必选。

        • 目录:勾选后,文档内的目录内容会进行解析并可用于对话问答。此选项非必选。

        • 页面页脚:勾选后,文档中的页眉页脚内容会进行解析,并可以作为知识点用于对话问答。此选项非必选。

      • 内容过滤:可通过正则表达式过滤掉文档中特定内容片段。

      • 图片增强:打开开关可以增强图片的解析能力。

        说明

        图片增强:该能力仅支持企业版(通义版)、旗舰版(通义版)。

      • 文章标题:文章标题将应用在文档路径片段中,对话中将用于检索文档片段。

        • 识别标题:采用OCR或MD格式识别从文档内容中识别出文章标题,未识别时将默认使用文档名称作为文章标题。

        • 文档标题:直接使用文档名称作为文章标题。

      • 文档片段长度:文档片段最大字数上限,当前支持单个文档片段字数最多为800字。

      • 层级解析模式:设置文档段落层级的解析方式。

        • 自动识别解析:通过ocr识别文档段落层级信息。

        • 段落规则解析:通过选择文档标题规则或自定义文档标题规则识别文档段落层级信息。

说明

有关自定义文档解析规则介绍可参考《文档解析规则》。

image

说明

保存解析策略:在导入文档过程中可以将当前的解析策略保存至解析策略管理中,可以供用户复用。

  • 解析策略保存方式:有两种保存方式,新建解析策略和覆盖已有解析策略。

  • 解析策略名称

image

解析策略管理

  • 解析策略管理:点击解析策略管理,打开窗口,可以对解析策略进行管理,包含新建、编辑和删除操作。

image

image

  • 新建解析策略:点击新建解析策略,可以新建一种解析策略供用户使用。相关字段的填写方式可以参考本文档中的导入文档>文档解析设置部分。

image

已导入文档查看、转移与删除

查看已导入文档

进入有关机器人空间后,选择知识管理>文档管理,点击有关文档右侧查看按钮即可查看有关文档内容和文档解析完成并切片后的信息。

  1. 原始文档内容。

  2. 文档解析完成后切片详情:在此处展示原始文档解析后切片的片段内容,支持片段内容是否生效编辑删除

image

  • 是否生效:打开开关,当前切片生效,进入大模型文档解析。

  • 编辑:点击编辑,支持对切片进行编辑文本信息和插入图片等操作。image

  • 删除:点击删除,即可删除当前片段。

说明
  • 当文档解析或切片效果不佳时(如一个完整内容被切分为两个片段),可能会影响模型的最终问答效果。若存在此类问题,可通过手动编辑调整片段内容进行优化。

  • 重新解析:查看文档时,支持对文档内容进行重新解析,点击重新解析按钮,有关重新解析的介绍可参考本文的文档知识构建>导入文档部分。image

    • 智能推荐:用户可以使用智能推荐功能,使用推荐的解析策略进行文档解析。

    image

  • 文档信息:

    • 元数据信息:指文档中带有关键信息的字段,可以作为检索条件,能有效过滤无关文档。具体操作文档可参考《文档信息表

    • 随路信息:随路信息添加后,会随答案一起返回,随路信息不参与对话问答。

image

转移、删除已导入文档

  • 文档转移:指从一个类目下转移到另一个类目。

  • 文档删除:删除知识中心有关文档。

    说明

    删除有关文档后,对应从有关文档中挖掘出的高频问答也会被删除。

在有关文档的右侧操作栏下,单击转移或删除按钮即可对文档进行转移或删除等操作,具体如下图所示:

image

已导入文档搜索查询

文档的搜索查询支持两种方式:

  1. 普通搜索:根据文档标题的关键字或文档内容的关键字进行搜索。

  2. 高级搜索:支持根据文档的类目、发布状态、状态、编辑人、更新时间、生效时间和失效时间进行搜索。

    • 文档类目:即待搜索文档所属类别。

    • 发布状态:指文档是否发布在正式环境,包括全部、未发布、已发布和已更新未发布四个选项,其中已更新未发布是指文档上传后对文档解析内容进行编辑修改后但未发布。

    • 状态:指文档上传后,系统对文档的处理状态自定义生效的状态。

      • 系统对文档的处理状态

        • 排队中:即文档正在排队待解析;

        • 解析中:即正在执行文档解析工作;

        • 处理中:即在文档解析完成后,系统进一步对文本内容进行向量化储存处理的过程;

        • 处理成功:即文档处理成功;

        • 处理失败:即文档处理失败。

      • 生效状态:

        • 生效时间:即文档的有效时间,若当前时间在文档的生效时间内,文档生效,可以进行问答;反之则文档失效,不参与问答。

        • 生效中:即文档在当前时间有效,可参与问答。

        • 已失效:即文档在当前时间无效,不可参与问答。

image