黄金测评集

本文介绍了黄金测评集的创建方式、扩充方式以及对已有黄金测评集的查看、编辑和删除操作。

功能概述

黄金测评集是指通过仔细筛选的一套用户会话数据集,用于在标注任务中评估测试机器人的会话效果。可下载模板按要求进行填写,黄金测评集主要包含:用户问法、期望答案、期望命中答案类型、期望命中文件名称、SessionId。黄金测评集在标注任务中的使用请参见标注任务

新建黄金测评集

  1. 登录智能对话机器人管理控制台,进入具体机器人空间,选择标注中心>黄金测评集进入黄金测评集管理界面。

    image

  2. 单击新建黄金测评集,在新建黄金测评集窗口填写黄金测评集名称并按照规范模板上传文件。黄金测评集内容需要满足一定的规范格式,系统提供黄金测评集模板,实际业务中可根据此模板梳理黄金测评集。规范模板内容如下:

    • 用户问法(必填):即用户与机器人对话中提出的问题或请求。如:“帮我查下天气、今天天气怎么样”。

    • 期望答案(选填):对应用户问法下,期望机器人回复的答案。如机器人:“请问你要查询哪里的天气、今天天气晴朗”。

    • SessionId(选填):用于测评多轮对话,可以使用数字自定义,同一通对话使用相同ID即可。若未填写,则默认测试单轮对话,系统自动生成不同的ID。

    • 期望命中的问答类型(选填):可填写对话工厂、数据问答、高频问答、文档、网站、互联网知识等任一种问答类型。

    • 期望命中的文件名称(选填):可填写文档名称、高频问题、网页名称、数据表名称、对话流名称,为方便区分同名文件,建议文件名称带后缀。

    • 随路参数(选填):json格式的用户自定义参数集,可以传入用户自定义的参数到各对话引擎。

    说明

    导入文件支持扩展名为:xls、xlsx,最大为20MB。导入文件非必填,若不上传,则创建一个空测评集;若上传数据需要符合既定的格式,用户问法为必填字段,其他字段根据需求选填,请勿在其他列填写无关内容。

  3. 单击确定,完成黄金测评集的创建。

  4. 在黄金测评集管理界面,单击已有黄金测评集右侧查看下载删除,即可完成对已有黄金测评集的查看、下载和删除操作。

    image

扩充已有黄金测评集

在已有测评集上新增数据

  1. 登录智能对话机器人管理控制台,进入具体机器人空间,选择标注中心>黄金测评集进入黄金测评集管理界面。

  2. 单击已有黄金测评集右侧查看,进入已有黄金测评集数据管理界面。

    image

  3. 单击新建,在新建数据窗口,根据实际业务需求,填写用户问法等信息,单击确定完成数据新建。

    • 用户问法:即用户与机器人对话中提出的问题或请求。如用户:“帮我查下天气、今天天气怎么样”。

    • 期望答案:对应用户问法下,期望机器人回复的答案。如机器人:“请问你要查询哪里的天气、今天天气晴朗。”

    • 期望命中答案类型:可选择对话工厂、数据问答、高频问答、文档、网站、互联网知识等任一种问答类型

    • 期望命中文件名称:可填写文档名称、高频问题、网页名称、数据表名称、对话流名称,为方便区分同名文件,建议文件名称带后缀。

    • SessionId:用于测评多轮对话,可以使用数字自定义,同一通对话使用相同ID即可。若未填写,则默认测试单轮对话,系统自动生成有差异的ID。

    image

  4. 单击已有黄金测评集右侧的编辑删除,即可进行黄金测评集内容的编辑、删除操作。

    image

从测试窗中扩充测评集

在测试窗中测试机器人问答效果时,若机器人回复效果不佳,可将当前用户问句保存至黄金测评集,方便后续再次验证有关问答效果。具体操作方法请参见全局测试窗查看对话调试信息部分。