创建完成用于数据标注的数据集后,您可以使用iTAG开展标注任务。本文为您介绍如何创建标注任务。
前提条件
使用限制
仅管理员或标注管理员可以进行标注相关操作。如果您的账号没有权限,请联系管理员为您的账号授予标注管理员权限,操作详情请参见管理工作空间成员。
创建任务
进入智能标注(iTAG)。
登录PAI控制台。
在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间。
在左侧导航栏,选择数据准备>智能标注(iTAG)。
创建标注任务。
PAI默认使用旧版iTAG创建标注任务,如果您需要进行大模型数据标注或使用更丰富的模板,可以选择使用新版iTAG创建标注任务。
旧版
单击创建任务,跳转至创建标注任务页面。
在旧版标注任务页面,配置如下参数。
参数
描述
任务名称
长度为1~100个字符,以小写字母、大写字母、数字或中文开头,可以包含下划线(_)或短划线(-)。
输入数据集
选择在PAI数据集管理中已经创建的数据集。
模板类型
支持以下类型的模型:
通用模板:平台预置的常用模板。
自定义模板:详情请参见标注模板。
模板
模板类型为通用模板时,支持选择细分的通用模板类型,当前支持:
图像类
模板的详细应用场景,以及此类模板的输入输出数据格式详情请参见图像类。
图片OCR:对图片框选区域内的文字进行OCR。
目标检测:对图像中的具体目标进行定位。
图像分类:按照预设的标签对图像进行分类标记。
PDF:对PDF进行OCR和标签分类。
审核抠图:对图片进行审核和抠图任务。
表格识别:利用算法预先对表格核心元素进行识别,按需进行编辑。
文本类
模板的详细应用场景,以及此类模板的输入输出数据格式详情,请参见文本类。
实体识别:建立文本实体之间的关系。
文本分类:对文本按照预设标签进行分类标记,支持单标签和多标签分类。
实体关系:文本实体之间的关系,用于知识图谱场景。
视频类
模板的详细应用场景,以及此类模板的输入输出数据格式详情请参见视频类。
视频分类:对视频按照预设标签进行分类标记,支持单标签和多标签分类。
音频类
模板的详细应用场景,及此类模板的输入输出数据格式详情请参见语音类。
音频分类:对音频按照预设标签进行分类标记,支持单标签和多标签分类。
音频分割:对音频数据集的内容进行分割并分段添加标签。
音频识别:将音频内容的文字进行识别。
选择图像内容所在字段
选择标注任务中的数据(图像/文本/视频/音频)内容在数据集中的对应字段名。
OCR识别结果配置
仅当在模板选择图像类中的图片OCR时,支持配置该参数。
默认选中OCR识别结果,表示支持对图片框选区域的文字进行OCR。
标签配置
在本标注任务中,需要依次输入后续打标人员需要识别、框选并打标的标签名称,然后按回车键完成添加。
例如,对图片中的猫进行识别时,您可以添加标签:“猫”、“美短”、“英短”等,便于后续的打标人员对样本进行打标。
您可以同时设置本标注任务中,打标人员对一个样本的一次框选打标时,可以对框选的对象打一个或多个标签。
当一次框选打标只能打一个标签时,可将该标签设置为单选。
当一次框选打标可以打多个标签时,可将该标签设置为多选。
例如,对图片中的猫进行识别时,如果标签设置为多选,标注人员框选出样本中的猫后,可以同时打上标签“猫”、“美短”。
说明此处的单选与多选指的是对一个样本的一次框选打标过程中,支持添加一个或多个标签,而非对一个样本进行多次框选打标。
是否开启智能标注
具体配置详情请参见数据预标注:智能标注配置。
任务说明
标注任务的简要说明,可链接到说明文档,上传说明文档或图片,以及手动填写文档说明。
子任务包分配
iTAG会将所有数据集中的标注任务按照指定规则汇总分配为一个个子任务包。在标注任务处理过程中,处理人员可以抢单获取子任务包,进行子任务包内的所有标注任务的处理。
当前支持通过以下规则来分配子任务包:
固定大小:每个子任务包中包含的标注任务数量为固定值。设置为固定大小时,数据集的数据量与子任务包中的任务数范围有如下对应关系:
当数据集大小为0~2万条数据时,子任务包大小范围是1~200条。
当数据集大小为2万~10万条数据时,子任务包大小范围是5~200条。
当数据集大小为10万~50万条数据时,子任务包大小的范围为25~200条。
当数据集大小为50万~100万条数据时,子任务包的大小范围为50~200条。
按导入字段:按照数据集中所选字段来划分子任务包,该字段数值相同的数据会放在同一个子任务包中。
定向派单:针对特定标注人员或团队进行划分子任务包。
检查比例
如果您选择的任务流程包括检查环节(例如打标-检查、打标-检查-验收),则需要配置在检查环节中,对标注任务进行抽查的比例,默认为100%。
人员配置
根据选择的任务流程,配置标注人员/组、检查人员/组、验收人员/组或任务管理员。您可以与该工作空间下的多个成员协作完成标注任务。iTAG中的角色权限,请参见iTAG概述。
配置完成后,单击创建。
新版
单击创建任务,跳转至创建标注任务页面。
单击,进入管理中心>任务管理页面。
单击,然后选择新版创建,配置相关参数。
数据选择
选择原始数据集或标注数据集,单击下一步。
预览数据及内容,单击下一步。
模板选择
您可以选择使用已有模板、官方模板、自定义模板或新建模板,并进行编辑配置,完成后单击下一步。
更多模板详情,请参见标注模板。
任务配置
配置以下参数,完成后单击创建任务。
参数
描述
基本信息
任务名称
自定义标注任务的名称。长度为1~100个字符,以小写字母、大写字母、数字或中文开头,可以包含下划线(_)或短划线(-)。
分发模式
单人标注:抢单模式,每次抢1个任务包进行回答。
多人投票:每个任务包被多人按顺序进行重复回答。
任务流程
分为标注、检查和验收三个环节,其中标注为必选环节,检查和验收为可选环节。
人员配置
根据选择的任务流程,配置标注人员/组、检查人员/组、验收人员/组、任务管理员。您可以与该工作空间下的多个成员协作完成标注任务。iTAG中的角色权限,请参见iTAG概述。
您可以在租户配置>人员管理页面进行设置。
任务说明
标注任务的简要说明,可链接到说明文档,上传说明文档或图片,以及手动填写文档说明。
优先级
数值越大,优先级越高。
业务类型
业务类型是对标注任务进行分类管理的标签。您可以在租户配置>云资源配置页面,选择业务类型配置然后进行设置。
任务标签
在标注任务中,可以选择后续打标人员需要识别、框选并打标的标签名称。您可以在租户配置>云资源配置页面,选择标签配置后进行设置。
智能标注
标注方式
可以选择不使用,或使用离线预标注结果、或UDF方式进行标注。
高级配置
子任务包最大跳过数量
为子任务包设置最大跳过数量,超过指定数值后,则不能跳过任务。
子任务包超时废弃
开启后,当任务包超过规定的时间仍未被领取过,则废弃此子任务包。
子任务包超时释放
开启后,当任务包超过规定的时间仍未被领取过,则释放此子任务包。
允许标注人员释放任务包
开启后,允许标注人员释放已领取的任务。
是否追加数据任务
追加数据到已有任务,可以有效避免任务频繁创建或任务过于零散,只有管理员有权限进行该操作。
接口调用详情,请参见AppendAllDataToTask - 追加数据。
管理任务
创建标注任务后,您可以在管理中心>任务管理页面查看任务状态、子任务包详情或获取标注结果等。
区域 | 任务 | 说明 |
① | 子任务包详情 | 单击子任务包详情,可对具体的子任务包进行查看、转派、释放或废弃的操作。
|
② | 获取标注结果 | 单击获取标注结果,根据界面提示将标注结果导出。单击获取记录,可查看导出的进度和结果。 具体操作,请参见导出标注结果数据。 |
③ | 下线/上线 | 上线或下线任务。 |
④ | 复制任务 | 单击复制任务,根据实际需求配置任务名称、数据集和任务模板,即可快速地基于已有的标注任务创建一个新的相似任务,避免重复配置。 |
⑤ | 人员分配 | 单击人员分配,根据创建标注任务时配置的不同的任务流程,配置对应标注、检查或验收人员。 |
⑥ | 删除 | 单击删除,并输入任务ID,即可删除该标注任务。 |
⑦ | 关注任务 | 单击关注任务,即可在PAI控制台的iTAG首页快速查看和访问该任务。 |