创建数据集:用于数据标注

更新时间: 2023-11-03 14:08:26

在创建标注任务过程中需要选择已创建的数据集,该数据集需要满足用于数据标注的格式要求,不同数据标注方式对数据集内的文件格式要求不一致。本文为您介绍用于数据标注的数据集的格式要求和创建操作指导。

背景信息

使用iTAG进行数据标注时,您需要先将待标注的文件上传至阿里云OSS,创建为待数据标注使用的数据集后,再在智能标注中创建标注任务,开始进行数据标注。

PAI智能标注支持通过通用模板自定义模板两种方式创建数据标注任务,不同方式的标注任务需要的数据准备及数据集创建方式不一致。

前提条件

已开通阿里云OSS。

创建数据集:通用模板数据标注场景

使用通用模板创建标注任务时,系统会自动解析内容。通用模板的应用可以细分为文本、图像、视频和音频这几种文件标注场景,各场景下待标注文件的准备和.manifest文件格式要求如下。

对比项

通用模板:文本

通用模板:图像/视频/音频

创建数据集操作指导

  1. 根据下文的后缀和格式要求,在本地创建好.manifest或TXT文件。

  2. 将本地文件上传至阿里云OSS,上传文件至OSS请参见上传文件

  3. 阿里云存储的方式创建数据集,操作详情请参见创建数据集:从阿里云云产品

  1. 将图片、视频或音频文件上传至阿里云OSS,生成OSS存储路径URL,上传文件至OSS请参见上传文件

  2. 通过扫描文件的方式创建数据集,自动生成.manifest文件,操作详情请参见创建数据集:扫描文件夹创建数据集

文件后缀类型要求

.manifest或TXT文件。

.manifest文件。

文件内容格式要求

文件内容格式为:

{"data":{"source":"text sample 1"}}
{"data":{"source":"text sample 2"}}
{"data":{"source":"text sample 3"}}

其中source表示需要标注的样本内容,您需要将source的取值替换为对应需要标注的文本内容。

文件内容格式为:

{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg"}}
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/10.jpg"}}
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/11.jpg"}}

其中source表示需要标注的样本内容,source的取值为对应样本的OSS存储路径URL。

文件demo参考

textDemo.manifest

创建数据集:自定义模板数据标注场景

通过自定义模板创建标注任务之前,您需要生成.manifest文件的格式如下,需要标注的样本内容的键值可以自己定义,在创建标注任务时可以自行选择标注内容的对应字段。

对比项

自定义模板

创建数据集操作指导

  1. 根据下文的后缀和格式要求,在本地创建好.manifest或TXT文件。

  2. 将本地文件上传至阿里云OSS,上传文件至OSS请参见上传文件

  3. 阿里云存储的方式创建数据集,操作详情请参见创建数据集:从阿里云云产品

文件后缀类型要求

.manifest或TXT文件。

文件内容格式要求

文件内容格式为:

{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg","text":"马云带领下的18位创始人在杭州的公寓中正式成立了阿里巴巴集团,集团的首个网站是英文全球批发贸易市场阿里巴巴"}}
{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/10.jpg","text":"阿里巴巴集团举办首届西湖论剑,汇聚互联网界的商业和意见领袖讨论业界重要议题"}}
{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/11.jpg","text":"阿里巴巴集团从数家一线投资机构融资8200万美元,成为当时中国互联网届最大规模的私募融资"}}

其中,每一行“data”均表示一个标注任务,每一行“data”中可以同时包含多种类型的样本检测,每个检测样本之间通过逗号分隔。

例如:

{"data":{"picture_url":"oss://****.oss url 01","text":"text sample1"}}

这个标注任务会同时检测标注图片(样本图片的存储路径是oss://****.oss url 01)和文本(文本样本的取值是text sample1)。

文件demo参考

multiModal.manifest

后续步骤

您可以使用已经注册的数据集创建标注任务,详情请参见创建标注任务

阿里云首页 人工智能平台 PAI 相关技术圈