创建数据集:用于数据标注
在创建标注任务过程中需要选择已创建的数据集,该数据集需要满足用于数据标注的格式要求,不同数据标注方式对数据集内的文件格式要求不一致。本文为您介绍用于数据标注的数据集的格式要求和创建操作指导。
背景信息
使用iTAG进行数据标注时,您需要先将待标注的文件上传至阿里云OSS,创建为待数据标注使用的数据集后,再在智能标注中创建标注任务,开始进行数据标注。
PAI智能标注支持通过通用模板和自定义模板两种方式创建数据标注任务,不同方式的标注任务需要的数据准备及数据集创建方式不一致。
通用模板
通用模板可进一步细分为文本、图像、视频、音频这四类,各个细分类别的创建数据集操作步骤和数据集格式要求请参见下文的创建数据集:通用模板数据标注场景。
说明预标注任务的数据集格式详情请参见数据预标注:智能标注配置。
自定义模板
自定义模板支持更灵活的数据标注场景,例如支持在同一个标注任务中同时标注图片、文本等多种类型的样本,自定义模板应用场景下的创建数据集操作步骤和数据集格式要求请参见下文的创建数据集:自定义模板数据标注场景。
前提条件
已开通阿里云OSS。
创建数据集:通用模板数据标注场景
使用通用模板创建标注任务时,系统会自动解析内容。通用模板的应用可以细分为文本、图像、视频和音频这几种文件标注场景,各场景下待标注文件的准备和.manifest文件格式要求如下。
对比项 | 通用模板:文本 | 通用模板:图像/视频/音频 |
创建数据集操作指导 |
|
|
文件后缀类型要求 | .manifest或TXT文件。 | .manifest文件。 |
文件内容格式要求 | 文件内容格式为:
其中source表示需要标注的样本内容,您需要将source的取值替换为对应需要标注的文本内容。 | 文件内容格式为:
其中source表示需要标注的样本内容,source的取值为对应样本的OSS存储路径URL。 |
文件demo参考 |
创建数据集:自定义模板数据标注场景
通过自定义模板创建标注任务之前,您需要生成.manifest文件的格式如下,需要标注的样本内容的键值可以自己定义,在创建标注任务时可以自行选择标注内容的对应字段。
对比项 | 自定义模板 |
创建数据集操作指导 |
|
文件后缀类型要求 | .manifest或TXT文件。 |
文件内容格式要求 | 文件内容格式为:
其中,每一行 例如:
这个标注任务会同时检测标注图片(样本图片的存储路径是 |
文件demo参考 |
后续步骤
您可以使用已经注册的数据集创建标注任务,详情请参见创建标注任务。