本文介绍了标注任务的新建方式、完成标注任务的三大步骤和标注任务的数据统计。
功能概述
标注任务是指通过人工确认机器人给出的回答的准确性,并可借助维度模板自定义评价标准和维度,对机器人对话效果进行标注与优化的工作。首先由系统基于测试环境下的机器人知识,根据人工上传测评集(包含测试问句)批量得到机器人答案,再由人工完成包括标注、优化和回归测评三大步骤。标注任务功能一方面可以明确当前机器人具体的使用效果,从而确保C端用户的良好体验;另一方面,它还为机器人的优化提供了重要的数据参考。
新建标注任务
登录智能对话机器人管理控制台,进入具体机器人空间,选择标注中心>标注任务进入标注任务管理界面。
单击新建标注任务,进入新建标注任务窗口,填写相关数据。
任务名称:即标注任务名字,系统默认任务名称为:标注任务-当前时间。
标注维度:系统内置改写满意度、召回满意度、生成满意度、问答满意度、答案满意度5个维度模板供用户选择。
服务模拟:启用后,调用API插件返回的值并非取自接口的数据,而是直接返回API插件的mock值。更多详细内容请参见API插件。
数据来源:即测评任务需测评的用户问句的数据来源,包括线上日志、线下导入、黄金测评集三种来源。
线上日志导入:即选择用户与机器人对话数据作为标注数据来源,可分为测试窗和C端。测试窗是指在产品测试窗内发生的与机器人的对话数据;C端是指线上真实终端用户与机器人发生的对话数据。此外,可进一步根据以下条件来筛选需标注的数据:
用户满意度:可选全部、点赞、点踩。点赞和点踩为终端用户在与机器人对话时对机器人答案的评价。
机器人回复类型:提供全部和仅无答案两个选项供用户选择。
全部:在标注机器人问答的时候筛选线上的全部问答数据。
仅无答案:在标注机器人问答的时候筛选线上仅无答案回复的问答数据。
是否转人工:会话session中有一轮转人工即会筛选出来标注,可选全部、是、否。
过滤已标注会话:开启后,已被标注过的会话不会进入本次标注任务,反之被标注过的会话则会进入本次标注任务。
时间范围:即与机器人对话发生的时间范围。
样本抽样:包含全量标注、比例抽样和自定义量三种模式。
全量标注:拉取全量的线上会话数据进行标注。
比例抽样:根据线上会话数据的量,抽取一定的比例来进行标注。
自定义量:根据自定义的数量,从线上会话数据随机抽取对应量的数据。
线下导入:即从本地导入待测评数据。
导入测评数据文件扩展名需为xls或xlsx,最大支持20MB;上传数据需要符合既定的格式,具体格式可参考黄金测评集规范模板。
黄金测评集:即从黄金测评集中导入待测评数据。可选择全量标注、比例抽样和自定义量。有关黄金测评集的详细介绍请参见黄金测评集。
全量标注:拉取已选择的黄金测评集中的全量数据进行标注;
比例抽样:根据已选择的黄金测评集中数据的量,抽取一定的比例来进行标注。
自定义量:根据自定义的数量,从已选择的黄金测评集中随机抽取对应量的数据。
单击确定,即可完成标注任务创建。
单击已有标注任务右侧操作栏的导出、删除,即可完成相关操作。
完成标注任务
标注任务的完成分为三个主要步骤:标注、优化(可跳过)、回归测评。
步骤一:标注
在标注评价维度模板基础上,对机器人与用户问答进行标注评价。创建完标注任务后,第一步就是需要完成标注。具体的标注步骤如下:
登录智能对话机器人管理控制台,进入具体机器人空间,选择标注中心>标注任务进入标注任务管理界面。
在标注任务管理界面,单击标注任务右侧标注,单击操作,即可进入标注任务界面。
标注任务创建完成后,系统需要一定时间生成机器人答案(标注测评数据越多,系统生成答案耗时越长)。系统答案未生成前,标注任务状态为执行中,对应操作按钮为置灰不可操作状态;系统答案生成完成后,标注任务状态为标注中,此时方可进行标注操作。
在标注任务界面,根据实际业务需求完成会话打标。当前标注界面可分为三个模块,每个模块的功能及含义如下:
会话信息模块:包含期望命中的答案、期望命中的问答类型、期望命中的文件名称、命中的问答类型、命中的文件名称、问题类型。
若当前标注任务数据来源为黄金测评集或本地上传导入,且测评集中有关问题都有期望答案,则此处期望命中答案展示对应内容,可作为对机器人答案测评依据;若测评集中未填写期望答案,则此处期望命中答案展示内容为空。
若当前标注任务数据来源为线上会话日志,则此处期望命中答案为空。
机器人与用户问答模块:展示用户问题及对应机器人回复答案。在有关问答区域单击,即可在右侧标注区对该问答进行打标。
标注模块:除了可以按照在创建标注任务时选择的标注任务侧测评维度模板进行标注外,还可以添加额外的会话标注,并填写期望的答案。
若当前标注任务数据来源为黄金测评集或本地上传导入,但对应测评集中未填写期望答案,或当前标注任务数据来源为线上会话日志,则在“会话信息模块”无期望答案有关信息。为方便后续优化与回归测试,可在“标注区模块”手动填写期望答案。
步骤二:优化(此步骤可跳过)
即根据标注结果,进行机器人问答干预或知识优化。具体操作步骤如下:
完成标注任务后,基于标注结果,按需选择优化范围后,即可进行优化操作;
单击优化右侧操作,进入优化界面,根据实际业务需求完成优化操作。
会话信息模块:包含期望命中的答案、期望命中的问答类型、期望命中的文件名称、命中的问答类型、命中的文件名称。
若当前标注任务数据来源为黄金测评集或本地上传导入,且测评集中有关问句都有期望答案,则此处期望命中答案展示对应内容,对应可作为对机器人答案优化依据;若测评集中未填写期望答案,则此处期望命中答案展示内容为空。
若当前标注任务数据来源为线上会话日志,则此处期望命中答案为空。
机器人与用户问答模块:展示用户问句及机器人回复答案。在有关问答区域单击鼠标,即可在右侧优化操作区对该问答进行优化。
标注答案统计模块:统计记录了“步骤一、标注”的会话标注信息,可作为优化操作的参考。
优化操作模块:包含召回干预、文档管理和高频问题三种方式。
召回干预:用于干预使用已配置的知识回复用户问句,即强制机器人用指定知识回复有关用户问句。
用户问句:即机器人无法正确召回已配置知识回复的用户问句。
匹配类型:能够回应用户问句的知识所属类型。
匹配知识:能够回应用户问句的知识。
文档管理:链接到文档管理界面,优化有关文档知识。
高频问题:链接到高频问题管理界面,通过补充或优化有关高频问答知识来优化有关问答效果。
步骤三:回归测评
完成优化操作后,可根据标注结果,单击回归测评右侧操作,单击确定创建回归测评任务。
单击标注,进入回归测评任务标注页面。
打开对比历史回复,可选择历史会话数据进行比较并标注。
根据实际业务需求,可以将有关会话数据添加至黄金测评集,用于后续重新标注测评该会话(创建标注任务时,选择数据来源于此黄金测评集),持续优化会话效果。
标注任务数据统计
完成标注任务后,单击标注任务右侧的数据统计,即可查看标注数据。
- 本页导读 (1)
- 功能概述
- 新建标注任务
- 完成标注任务
- 步骤一:标注
- 步骤二:优化(此步骤可跳过)
- 步骤三:回归测评
- 标注任务数据统计