创建标注任务
创建完成用于数据标注的数据集后,您可以使用iTAG开展标注任务。PAI为您提供通用模板用于创建标注任务。如果通用模板无法满足需求,您也可以根据实际场景,通过拼接内容组件和题目组件自定义模板。本文为您介绍如何通过预置的通用模板创建标注任务。
前提条件
已开通PAI并创建好工作空间。
您可以使用默认工作空间,或根据业务规划新建其他工作空间。默认空间的创建请参见开通PAI并创建默认工作空间,其他工作空间的创建请参见创建工作空间。
已开通阿里云OSS,将待标注的数据文件上传至OSS并创建为数据集。操作详情请参见创建数据集:用于数据标注。
使用限制
仅管理员或标注管理员可以进行标注相关操作。如果您的账号没有权限,请联系管理员为您的账号授予标注管理员权限,操作详情请参见管理工作空间成员。
操作步骤
进入智能标注(iTAG)。
登录PAI控制台。
在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。
在左侧导航栏,选择 。
在智能标注(iTAG)页面的任务中心页签,单击创建任务。
在创建标注任务页面的选择数据与模版配置向导页面,配置如下参数,然后单击下一步。
参数
描述
输入数据集
选择在PAI数据集管理中已经创建的数据集。
模板类型
支持以下类型的模型:
通用模板:平台预置的常用模板。
自定义模板:根据自己特定的场景,参考页面提示拼接内容组件和题目组件,从而通过自定义模板创建标注任务。
自定义模板适用于自定义的场景,模板的输入输出数据格式详情请参见自定义模板。
模板
模板类型为通用模板时,支持选择细分的通用模板类型,当前支持:
文本类包含以下三种细分类型:
实体识别:建立文本实体之间的关系。
文本分类:对文本按照预设标签进行分类标记,支持单标签和多标签分类。
实体关系:文本实体之间的关系,用于知识图谱场景。
模板的详细应用场景,以及此类模板的输入输出数据格式详情请参见文本类。
图像类
图片OCR:对图片框选区域内的文字进行OCR。
目标检测:对图像中的具体目标进行定位。
图像分类:按照预设的标签对图像进行分类标记。
模板的详细应用场景,以及此类模板的输入输出数据格式详情请参见图像类。
视频类
视频分类:对视频按照预设标签进行分类标记,支持单标签和多标签分类。
模板的详细应用场景,以及此类模板的输入输出数据格式详情请参见视频类。
音频类
音频分类:对音频按照预设标签进行分类标记,支持单标签和多标签分类。
音频分割:对音频数据集的内容进行分割并分段添加标签。
音频识别:将音频内容的文字进行识别。
模板的详细应用场景,及此类模板的输入输出数据格式详情请参见语音类。
OCR识别结果配置
仅当在模板选择图像类中的图片OCR时,支持配置该参数。
默认选中OCR识别结果,表示支持对图片框选区域的文字进行OCR。
标签配置
在本标注任务中,需要依次输入后续打标人员需要识别、框选并打标的标签名称,然后按回车键完成添加。
例如,对图片中的猫进行识别时,您可以添加标签:“猫”、“美短”、“英短”等,便于后续的打标人员对样本进行打标。
您可以同时设置本标注任务中,打标人员对一个样本的一次框选打标时,可以对框选的对象打一个或多个标签。
当一次框选打标只能打一个标签时,可将该标签设置为单选。
当一次框选打标可以打多个标签时,可将该标签设置为多选。
例如,对图片中的猫进行识别时,如果标签设置为多选,标注人员框选出样本中的猫后,可以同时打上标签“猫”、“美短”。
说明此处的单选与多选指的是对一个样本的一次框选打标过程中,支持添加一个或多个标签,而非对一个样本进行多次框选打标。
在调整预览配置向导页面,预览标注任务,并单击下一步。
在智能标注配置配置向导页面,您可以进行数据预标注配置。具体配置详情请参见数据预标注:智能标注配置。参数配置完成之后,请单击下一步。
在分发任务配置向导页面,配置如下参数,并单击创建。
参数
描述
任务名称
长度为1~100个字符,以小写字母、大写字母、数字或中文开头,可以包含下划线(_)或短划线(-)。
任务说明
标注任务的简要说明,以区分不同的任务。
子任务包分配
iTAG会将所有数据集中的标注任务按照指定规则汇总分配为一个个子任务包。在标注任务处理过程中,处理人员可以抢单获取子任务包,进行子任务包内的所有标注任务的处理。
当前支持通过以下规则来分配子任务包:
固定大小:每个子任务包中包含的标注任务数量为固定值。
设置为固定大小时,数据集的数据量与子任务包中的任务数范围有如下对应关系:
当数据集大小为0~2万条数据时,子任务包大小范围是1~200条。
当数据集大小为2万~10万条数据时,子任务包大小范围是5~200条。
当数据集大小为10万~50万条数据时,子任务包大小的范围为25~200条。
当数据集大小为50万~100万条数据时,子任务包的大小范围为50~200条。
按导入字段:按照数据集中所选字段来划分子任务包,该字段数值相同的数据会放在同一个子任务包中。
任务流程
您可以结合实际情况设置本次创建的任务需要包含的任务流程。
打标:本次任务仅需进行打标流程,打标员完成打标并提交后,本次任务即全部完成。
打标-检查:本次任务需要经过打标、检查两个流程。打标人员完成打标后需要提交,然后检查员完成检查并提交,本次任务才算全部完成。
打标-验收:本次任务需经过打标、验收两个流程。打标人员完成打标提交后,需验收员完成验收提交,本次任务才算全部完成。
打标-检查-验收:本次任务需要经过打标、检查、验收三个流程,打标人员完成打标提交后,需检查员完成检查提交、验收员完成验收提交,本次任务才全部完成。
检查比例
如果您选择的任务流程包括检查环节,例如打标-检查或打标-检查-验收,则需要配置在检查过程中,对标注任务进行抽查的比例,默认为100%。
人员配置
根据选择的任务流程,配置标注人员、检查人员、验收人员或任务管理员。您可以与该工作空间下的多个成员,协作完成标注任务。iTAG中的角色权限,请参见概述。
查看任务列表
创建完成打标、检查、验收任务后,您可以在智能标注的任务中心页面看到当前所有任务列表,可查看任务的状态,并通过操作列的操作入口了解子任务包详情和获取标注结果等操作。
处理标注任务:
您可以单击页面右上角的前往标注页面进入iTAG标注页面,对待处理的打标、检查、验收任务进行抢单处理。操作详情请参见处理标注任务。
转派、释放子任务包:
您可以在任务中心页面查看所有任务的状态。对于未完成的任务,您可以单击子任务包详情,进一步查看子任务包的完成情况。对于未完成的子任务包,您可以单击转派,将子任务包直接转交给其他人员进行处理,或单击释放,释放后的子任务包可以被其他人员抢单继续处理。
导出并查看标注结果:
对已完成的任务,您可以单击获取标注结果,根据界面提示将标注结果导出,还可以单击右上方的
按钮查看导出的进度和结果。操作详情请参见导出标注结果数据。
其它任务管理操作:
您可以单击任务操作列后的更多操作,对任务进行下线、上线等管理操作。
后续步骤
您可以抢单来认领标注任务并进行标注处理,详情请参见处理标注任务。