在创建标注任务过程中需要选择已注册的数据集,该数据集需要满足.manifest格式。您可以通过PAI提供的数据集管理模块注册数据集,系统会自动生成为标注所需要的.manifest数据格式。本文介绍如何通过数据集管理模块将各通用场景的数据处理为满足标注要求的格式。

背景信息

智能标注(iTAG)提供了通用模板和自定义模板两种方式进行数据标注,对于不同的标注模板,创建标注任务之前,您都需要将待标注的数据文件上传至OSS并注册数据集,具体方法请参考以下内容:

通用模板

通用智能标注(iTAG)提供的通用模板创建标注任务前,您需要生成的.manifest文件的格式如下。其中需要标注的样本内容的键值为source,在创建标注任务时系统会自动解析内容。
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg"}}
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/10.jpg"}}
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/11.jpg"}}

文本类

  1. 自行准备.manifest或TXT格式的文件,文本内容的键值为source。数据集文件的示例请参见textDemo.manifest
  2. 将准备好的文件上传至OSS,详情请参见上传文件
  3. 通过阿里云存储,将上传至OSS的数据文件注册到PAI数据集管理中,从而用于后续标注任务的创建。关于如何通过阿里云存储注册数据集,请参见从阿里云存储注册数据集

图像类

  1. 将准备好的图像上传至OSS的任意文件夹中,详情请参见上传文件
  2. 通过扫描文件夹的方式,将上传至OSS的图像文件注册为数据集,从而生成.manifest格式的索引文件。关于如何通过扫描文件夹的方式注册数据集,请参见通过扫描文件夹的方式注册数据集
    图像类索引文件中,图像URL的键值为source,文件示例请参见pictureDemo.manifest

视频类

  1. 将准备好的视频上传至OSS的任意文件夹中,详情请参见上传文件
  2. 通过扫描文件夹的方式,将上传至OSS的视频文件注册为数据集,从而生成.manifest格式的索引文件。关于如何通过扫描文件夹的方式注册数据集,请参见通过扫描文件夹的方式注册数据集
    视频类索引文件中,视频URL的键值为source,文件示例请参见videoDemo.manifest

音频类

  1. 将准备好的音频上传至OSS的任意文件夹中,详情请参见上传文件
  2. 通过扫描文件夹的方式,将上传至OSS的音频文件注册为数据集,从而生成.manifest格式的索引文件。关于如何通过扫描文件夹的方式注册数据集,请参见通过扫描文件夹的方式注册数据集
    音频类索引文件中,音频URL的键值为source,文件示例请参见audioDemo.manifest

自定义模板

通过自定义模板创建标注任务之前,您需要生成.manifest文件的格式如下,需要标注的样本内容的键值可以自己定义,在创建标注任务时可以自行选择标注内容的对应字段。

{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg","text":"马云带领下的18位创始人在杭州的公寓中正式成立了阿里巴巴集团,集团的首个网站是英文全球批发贸易市场阿里巴巴"}}
{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/10.jpg","text":"阿里巴巴集团举办首届西湖论剑,汇聚互联网界的商业和意见领袖讨论业界重要议题"}}
{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/11.jpg","text":"阿里巴巴集团从数家一线投资机构融资8200万美元,成为当时中国互联网届最大规模的私募融资"}}

以下介绍如何生成符合自定义模板要求的.manifest文件。

  1. 自行准备并上传.manifest或TXT的文件,标注内容的键值可以自定义,从而在创建标注任务时灵活选择。数据集文件示例请参见multiModal.manifest
  2. 将准备好的数据上传至OSS的任意文件夹中,详情请参见上传文件
  3. 通过阿里云存储,将上传至OSS的数据文件注册到PAI数据集管理中,从而用于后续标注任务的创建。关于如何通过阿里云存储注册数据集,请参见从阿里云存储注册数据集

后续步骤

您可以使用已经注册的数据集创建标注任务,详情请参见创建标注任务