文档

黄金测评集

更新时间:

功能概述

在智能对话机器人产品中,"黄金测评集"是指经过仔细筛选的一套数据集(至少包含用户问法),用于标注任务中评估测试机器人的会话效果。

说明

有关黄金测评集如何在标注任务中使用可参考《标注任务》。

功能入口

进入有关机器人空间后,选择标注中心>黄金测评集,即可进入黄金测评集管理界面。

image

黄金测评集管理

新建黄金测评集

  1. 进入黄金测评集管理界面后,单击新建黄金测评集按钮,系统弹出新建黄金测评集窗口;

  2. 在黄金测评集窗口填写黄金测评集名称上传有关文件后,点击确定按钮,即可完成黄金测评集的新建。

    • 用户问法:即用户与机器人对话中提出的问题或请求。如用户:“帮我查下天气;今天天气怎么样”。

    • 期望答案:对应用户问法下,期望机器人回复的答案。如机器人:“请问你要查询哪里的天气;今天天气晴朗”。

    • 期望命中答案类型:可选择对话工厂、数据问答、高频问答、文档、网站、互联网知识等任一种问答类型

    • 期望命中文件名称:可填写文档名称、高频问题、网页名称、数据表名称、对话流名称,为方便区分同名文件,建议文件名称带后缀。

    • SessionId:用于测评多轮对话,可以使用数字自定义,同一通对话使用相同id即可,。若未填写,则默认测试单轮对话,系统自动生成有差异的id。

说明
  • 导入文件支持扩展名为:xls、xlsx;导入文件最大为20MB.

  • 黄金测评集内容需要满足一定的规范格式,系统提供黄金测评集模板,实际业务中可根据此模板梳理黄金测评集。具体模板内容如下图所示:image

image

扩充已有黄金测评集数据量

在已有测评集上新增数据

  1. 进入黄金测评集管理界面后,单击待扩充测评集右侧查看按钮,进入待扩充测评集数据管理界面;

  2. 在待扩充测评集数据管理界面,单击右上角新增按钮;

  3. 在新增数据窗口,根据实际业务需求,填写用户问法等信息后,单击确定按钮即可完成数据新增。

    • 用户问法:即用户与机器人对话中提出的问题或请求。如用户:“帮我查下天气;今天天气怎么样”。

    • 期望答案:对应用户问法下,期望机器人回复的答案。如机器人:“请问你要查询哪里的天气;今天天气晴朗”。

    • 期望命中答案类型:可选择对话工厂、数据问答、高频问答、文档、网站、互联网知识等任一种问答类型

    • 期望命中文件名称:可填写文档名称、高频问题、网页名称、数据表名称、对话流名称,为方便区分同名文件,建议文件名称带后缀。

    • SessionId:用于测评多轮对话,可以使用数字自定义,同一通对话使用相同id即可。若未填写,则默认测试单轮对话,系统自动生成有差异的id。

image

imageimage

从测试窗中扩充测评集

在测试窗中测试机器人问答效果时,若机器人回复效果不佳,可将当前用户问句保存至黄金测评集,方便后续再次验证有关问答效果。具体操作方法可参考《全局测试窗》中的功能介绍>查看对话调试信息部分。

编辑修改已有黄金测评集内容

  1. 进入黄金测评集管理界面后,单击待修改测评集右侧查看按钮,进入待修改测评集数据管理界面;

  2. 在待修改测评集数据管理界面,单击待修改内容右侧的编辑删除按钮,即可进行内容编辑修改或删除。

imageimage

黄金测评的下载与删除

在黄金测评集管理界面,单击有关测评集右侧下载删除按钮,即可完成对应操作。

image

  • 本页导读 (0)