功能概述
在智能对话机器人产品中,标注任务是指对机器人对话效果的打标与优化任务。首先由系统基于测试环境下的机器人知识,根据人工上传测评集(包含测试问句)批量跑出机器人答案,再由人工完成包括标注、优化和回归测评三大步骤。
标注任务功能一方面可以明晰当前机器人的具体使用效果以保证C端用户体验,另一方面还能为机器人的优化提供窗口。
功能入口
进入有关机器人空间后,选择标注中心>标注任务,即可进入标注任务管理界面,具体如下图所示。
标注任务管理
新建标注任务
在标注任务管理界面,单击新建标注任务按钮,系统弹出标注任务窗口;
在新建标注任务窗口选择标注维度和数据来源后,单击确定按钮即可完成任务新建。
任务名称:即标注任务名字,系统默认任务名称为:“标注任务-当前时间”。
标注维度:即黄金测评集中的维度模板。
说明有关黄金测评集的详细介绍可参考《黄金测评集》。
除了在黄金测评集内自定义测评集外,系统内置了“问答满意度”标注维度。
数据来源:即测评任务需测评的用户问句的数据来源,包括线上日志、线下导入、黄金测评集三种来源。
线上日志导入:即选择用户与机器人对话数据作为标注数据来源,可分为测试窗和C端。测试窗:在产品测试窗内发生的与机器人的对话数据;C端:线上真实终端用户与机器人发生的对话数据。此外,可进一步根据其它条件来筛选需标注的数据,支持的筛选条件为:
用户反馈:可选“点赞、点踩、全部”。点赞和点踩为终端用户在与机器人对话时对机器人答案的评价。
机器人回复类型:包括对话工厂、数据问答、高频问答、文档、网站等。若机器人某条回复答案来自文档知识,则该条回复会被系统记录为:回复类型:文档。
是否转人工:可选“是、否、全部”。
过滤已标注会话:可选“是、否”。若选择是,则已被标注过的会话不会进入本次标注任务,反之被标注过的会话则会进入本次标注任务。
时间范围:即机器人对话发生的时间范围。
样本抽样:包含“全量标注、比例抽样和自定义量”三种模式。全量标注:拉取全量的线上会话数据进行标注;比例抽样:根据线上会话数据的量,抽取一定的比例来进行标注。自定义量:根据自定义的数量,从线上会话数据随机抽取对应量的数据。
线下导入:即从本地导入待测评数据。
说明导入测评数据文件扩展名需为xls或xlsx,最大支持20MB;
上传数据需要符合既定的格式,具体格式可参考规范模板。
黄金测评集:即从黄金测评集中导入待测评数据。可选择“全量标注、比例抽样和自定义量”。
说明有关黄金测评集的详细介绍可参考《黄金测评集》。
全量标注:拉取已选择的黄金测评集中的全量数据进行标注;
比例抽样:根据已选择的黄金测评集中数据的量,抽取一定的比例来进行标注。
自定义量:根据自定义的数量,从已选择的黄金测评集中随机抽取对应量的数据。
完成标注任务
标注任务的完成分为三大步骤:标注、优化(可跳过)和回归测评。
标注:在标注评价维度模板基础上,对机器人与用户问答进行标注评价。
优化:根据标注结果,进行机器人问答干预或知识优化。
回归测评:在优化的基础上,根据实际业务需求,将原标注问句添加至黄金测评集,方便后续重新标注测评,监测有关效果是否被优化。
步骤一、标注
创建完标注任务后,第一步就是需要完成标注。
在标注任务界面,单击有关标注任务右侧的标注按钮,再单击操作按钮,即可进入标注任务界面。
标注任务创建完成后,系统需要一定时间生成机器人答案(标注测评数据越多,系统生成答案耗时越长)。系统答案未生成前,标注任务状态为:执行中,对应“操作”按钮为置灰不可操作状态;系统答案生成完成后,标注任务状态为:标注中,此时才可进行标注操作。
此处以数据来源为黄金测评集,标注维度为自定义的答案冗余度进行介绍。
在标注任务界面,根据实际业务需求完成会话打标。当前标注界面可简单分为三个模块,每个模块的功能及含义如下:
会话信息模块:包含期望命中的答案、期望命中的问答类型、期望命中的文件名称、命中的问答类型、命中的文件名称。
若当前标注任务数据来源为黄金测评集或本地上传导入,且测频集中有关问句都有期望答案,则此处期望命中答案展示对应内容,对应可作为对机器人答案测评依据;若测评集中未填写期望答案,则此处期望命中答案展示内容为空。
若当前标注任务数据来源为线上会话日志,则此处期望命中答案为空。
机器人与用户问答模块:展示用户问句及对应机器人回复答案。在有关问答区域单击鼠标,即可在右侧标注区对该问答进行打标。
标注区模块:除了可以在此处按照在创建标注任务时选择的该标注任务侧测评维度模板进行打标外,还可以添加额外会话标注,并填写期望答案。
说明若当前标注任务数据来源为黄金测评集或本地上传导入,但对应测评集中未填写期望答案,或当前标注任务数据来源为线上会话日志,则在“会话信息模块”无期望答案有关信息。为方便后续优化与回归测试,可在“标注区模块”手动填写期望答案。
步骤二、优化(此步可跳过)
完成标注任务后,基于标注结果,按需选择优化范围后,即可进行优化操作;
点击优化右侧的操作按钮,进入优化界面,根据实际业务需求完成优化操作。
会话信息模块:包含期望命中的答案、期望命中的问答类型、期望命中的文件名称、命中的问答类型、命中的文件名称。
若当前标注任务数据来源为黄金测评集或本地上传导入,且测频集中有关问句都有期望答案,则此处期望命中答案展示对应内容,对应可作为对机器人答案优化依据;若测评集中未填写期望答案,则此处期望命中答案展示内容为空。
若当前标注任务数据来源为线上会话日志,则此处期望命中答案为空。
机器人与用户问答模块:展示用户问句及对应机器人回复答案。在有关问答区域单击鼠标,即可在右侧优化操作区对该问答进行优化。
标注答案统计模块:统计记录了“步骤一、标注”的会话标注信息,可作为优化操作的参考。
优化操作区模块:包含召回干预、文档管理和高频问题三种方式。
召回干预:用于干预使用已配置的知识回复用户问句,即强制机器人用指定知识回复有关用户问句。
用户问句:即机器人无法正确召回已配置知识回复的用户问句。
匹配类型:能够回应用户问句的知识所属类型。
匹配知识:能够回应用户问句的知识。
文档管理:链接到文档管理界面,优化有关文档知识。
高频问题:链接到高频问题管理界面,通过补充或优化有关高频知识来优化有关问答效果。
步骤三、回归测评
完成优化操作后,可根据标注结果,选择回归测评范围,点击回归测评右侧操作按钮;
根据实际业务需求,将有关会话数据添加至黄金测评集,用于后续重新标注测评该会话(创建标注任务时,选择数据来源此黄金测评集),持续优化会话效果。
标注任务数据统计
完成标注任务后,单击有关任务右侧的数据统计按钮,即可查看对应标注数据。
标注任务的导出与删除
单击有关任务右侧的导出或删除按钮,即可完成有关操作。