概念与作用
概念:文档知识是指以文档的形式存在的知识,如PDF、doc/docx和TxT格式的文档。
作用:结合通义版对话机器人的能力,将文档导入系统后,机器人将形成基于有关文档的业务知识,可直接根据文档中的内容对用户问题进行解答。
文档知识构建
导入文档
不同版本可支持导入文档的数量有差别,如企业版(通义版)支持最多上传500个文档,有关具体版本对应可使用资源信息可参考《产品计费》产品定价部分。
文档的导入可在业务空间下的知识中心进行,也可在机器人空间下的知识中心进行。机器人空间下导入的文档会直接绑定在对应机器人上,并进入业务空间可供其他机器人调用;业务空间下导入的文档不会直接绑定在任何机器人上,需要在具体机器人空间的知识中心进行绑定,具体绑定方法参考《配置机器人》知识配置部分。
本文以在机器人空间下的知识中心对导入文档的流程进行介绍。
文档导入完整具体步骤如下:
进入有关机器人空间后,选择知识管理>文档管理,进入文档管理界面;
单击导入文档按钮,弹出导入文档窗口;
在导入文档窗口完成有关信息输入后,单击下一步按钮,进入文档解析设置窗口;
根据实际业务需求,设置文档解析规则后,单击确定按钮即可完成文档导入。
导入文档
类目:指文档所属类,方便对文档知识分类,单击新增类目按钮可新增文档类目;
导入文档条件:
支持PDF、doc/docx、TXT格式;
单个文件支持最多100页;
最多导入50个文件,超过50个请分批上传;
导入文件大小限制:PDF 100M,doc 100M,docx 100M,TXT 200K;
生效配置:文档知识的生效时间设置,可设置为永久生效、指定时间生效和不生效。
文档解析设置
解析内容
文字内容:解析文档中的文字内容并用于对话问答。此选项必选。
段落标题:勾选后,段落标题会进行解析并可用于对话问答。此选项必选。
表格:勾选后,文档内的表格内容会进行解析为markdown并可用于对话问答。此选项非必选。
图片:勾选后,图片内的文字内容会进行解析并可用于对话问答。此选项非必选。
目录:勾选后,文档内的目录内容会进行解析并可用于对话问答。此选项非必选。
页面页脚:勾选后,文档中的页眉页脚内容会进行解析,并可以作为知识点用于对话问答。此选项非必选。
文章标题:文章标题将应用在文档路径片段中,对话中将用于检索文档片段。
识别标题:采用OCR或MD格式识别从文档内容中识别出文章标题,未识别时将默认使用文档名称作为文章标题。
文档标题:直接使用文档名称作为文章标题。
文档片段长度:文档片段最大字数上限,当前支持单个文档片段字数最多为800字。
层级解析模式:设置文档段落层级的解析方式。
识别解析:通过ocr识别文档段落层级信息。
规则解析:通过选择文档标题规则或自定义文档标题规则识别文档段落层级信息。
说明有关自定义文档解析规则介绍可参考《文档解析规则自定义示例》。
实体管理
实体是同类型单词的合集,如:红色、蓝色、绿色可统一归为颜色这个实体。通过增加实体配置,当用户问句中包含有关实体信息时,系统将自动检索与实体相关的文档内容并优先召回,进行对话。
功能入口:
进入有关机器人空间后,选择通用设置>实体管理,进入实体管理界面;
单击新增标准实体按钮即可进入实体管理界面;
功能介绍:
新增标准实体:
进入实体管理界面后,单击新增标准实体按钮,根据实际业务需求填写实体名词和实体code后,单击创建按钮,完成实体创建。
实体创建完成后,根据实际业务需求,添加实体成员,完成实体配置。
实体的导入导出与删除:选择实体操作下拉菜单后,根据实际业务需求单击导入、导出或删除按钮即可完成有关操作。
已导入文档查看、转移与删除
查看已导入文档
进入有关机器人空间后,选择知识管理>文档管理,点击有关文档右侧查看按钮即可查看有关文档内容和文档解析完成并切片后的信息。
原始文档内容。
文档解析完成后切片详情:在此处展示原始文档解析后切片的片段内容,支持片段内容的编辑和删除。
说明当文档解析或切片效果不佳时(如一个完整内容被切分为两个片段),可能会影响模型的最终问答效果。若存在此类问题,可通过手动编辑调整片段内容进行优化。
查看文档时,支持对文档内容进行重新解析,在有关文档查看界面点击“解析设置”按钮即可。有关解析设置的介绍可参考本文的文档知识构建>导入文档部分。
转移、删除已导入文档
文档转移:指从一个类目下转移到另一个类目。
文档删除:删除知识中心有关文档。
说明删除有关文档后,对应从有关文档中挖掘出的高频问答也会被删除。
在有关文档的右侧操作栏下,单击转移或删除按钮即可对文档进行转移或删除等操作,具体如下图所示:
已导入文档搜索查询
文档的搜索查询支持两种方式:
普通搜索:根据文档标题的关键字或文档内容的关键字进行搜索。
高级搜索:支持根据文档的类目、发布状态、状态、编辑人、更新时间、生效时间和失效时间进行搜索。
文档类目:即待搜索文档所属类别。
发布状态:指文档是否发布在正式环境,包括全部、未发布、已发布和已更新未发布四个选项,其中已更新未发布是指文档上传后对文档解析内容进行编辑修改后但未发布。
状态:指文档上传后,系统对文档的处理状态和自定义生效的状态。
系统对文档的处理状态
排队中:即文档正在排队待解析;
解析中:即正在执行文档解析工作;
处理中:即在文档解析完成后,系统进一步对文本内容进行向量化储存处理的过程;
处理成功:即文档处理成功;
处理失败:即文档处理失败。
生效状态:
生效时间:即文档的有效时间,若当前时间在文档的生效时间内,文档生效,可以进行问答;反之则文档失效,不参与问答。
生效中:即文档在当前时间有效,可参与问答。
已失效:即文档在当前时间无效,不可参与问答。
- 本页导读 (0)