功能概述
在智能对话机器人产品中,"黄金测评集"是指经过仔细筛选的一套数据集(至少包含用户问法),用于标注任务中评估测试机器人的会话效果。
有关黄金测评集如何在标注任务中使用可参考《标注任务》。
功能入口
进入有关机器人空间后,选择标注中心>黄金测评集,即可进入黄金测评集管理界面。
黄金测评集管理
新建黄金测评集
进入黄金测评集管理界面后,单击新建黄金测评集按钮,系统弹出新建黄金测评集窗口;
在黄金测评集窗口填写黄金测评集名称并上传有关文件后,点击确定按钮,即可完成黄金测评集的新建。
用户问法:即用户与机器人对话中提出的问题或请求。如用户:“帮我查下天气;今天天气怎么样”。
期望答案:对应用户问法下,期望机器人回复的答案。如机器人:“请问你要查询哪里的天气;今天天气晴朗”。
期望命中答案类型:可选择对话工厂、数据问答、高频问答、文档、网站、互联网知识等任一种问答类型
期望命中文件名称:可填写文档名称、高频问题、网页名称、数据表名称、对话流名称,为方便区分同名文件,建议文件名称带后缀。
SessionId:用于测评多轮对话,可以使用数字自定义,同一通对话使用相同ID即可。若未填写,则默认测试单轮对话,系统自动生成有差异的ID。
导入文件支持扩展名为:xls、xlsx;导入文件最大为20MB.
黄金测评集内容需要满足一定的规范格式,系统提供黄金测评集模板,实际业务中可根据此模板梳理黄金测评集。具体模板内容如下图所示:
扩充已有黄金测评集数据量
在已有测评集上新增数据
进入黄金测评集管理界面后,单击待扩充测评集右侧查看按钮,进入待扩充测评集数据管理界面;
在待扩充测评集数据管理界面,单击右上角新增按钮;
在新增数据窗口,根据实际业务需求,填写用户问法等信息后,单击确定按钮即可完成数据新增。
用户问法:即用户与机器人对话中提出的问题或请求。如用户:“帮我查下天气;今天天气怎么样”。
期望答案:对应用户问法下,期望机器人回复的答案。如机器人:“请问你要查询哪里的天气;今天天气晴朗”。
期望命中答案类型:可选择对话工厂、数据问答、高频问答、文档、网站、互联网知识等任一种问答类型
期望命中文件名称:可填写文档名称、高频问题、网页名称、数据表名称、对话流名称,为方便区分同名文件,建议文件名称带后缀。
SessionId:用于测评多轮对话,可以使用数字自定义,同一通对话使用相同ID即可。若未填写,则默认测试单轮对话,系统自动生成有差异的ID。
从测试窗中扩充测评集
在测试窗中测试机器人问答效果时,若机器人回复效果不佳,可将当前用户问句保存至黄金测评集,方便后续再次验证有关问答效果。具体操作方法可参考《全局测试窗》中的功能介绍>查看对话调试信息部分。
编辑修改已有黄金测评集内容
进入黄金测评集管理界面后,单击待修改测评集右侧查看按钮,进入待修改测评集数据管理界面;
在待修改测评集数据管理界面,单击待修改内容右侧的编辑或删除按钮,即可进行内容编辑修改或删除。
黄金测评的下载与删除
在黄金测评集管理界面,单击有关测评集右侧下载与删除按钮,即可完成对应操作。