在创建标注任务的过程中,需要选择数据集。本文为您介绍如何创建用于数据标注的数据集,以及数据集的具体格式要求。
前提条件
已开通OSS服务并创建Bucket,操作详情请参见控制台快速入门。
已获取OSS Bucket所在地域对应的Endpoint,详情请参见OSS地域和访问域名。
已创建PAI工作空间,详情请参见创建工作空间。
操作步骤
进入智能标注(iTAG)。
登录PAI控制台。
在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间。
在左侧导航栏,选择数据准备>智能标注(iTAG)。
单击上传数据,跳转至管理中心>资产管理页面的创建原始数据集弹窗。
具体参数配置说明如下:
自定义数据集名称和数据集描述(可选)。
上传数据集。
导入形式为文件
对比项
方式一:本地上传
方式二:OSS上传
操作流程
根据下文的文件格式要求,在本地创建.csv或.xlsx或.manifest格式文件。
在创建原始数据集页面配置如下关键参数:
数据导入选择本地上传。
导入形式选择文件。
选择已创建的OSS Bucket和对应的OSS文件路径。
单击上传文件,上传本地已创建的文件。
前提条件:需要的数据文件已存在于阿里云OSS中。
在创建原始数据集页面配置如下关键参数:
数据导入选择OSS上传。
导入形式选择文件。
配置数据文件的Endpoint,OSS Bucket和OSS文件路径。
单击授权检测,检测文件路径授权是否通过。
文件后缀类型要求
.csv、.xlsx或.manifest。
文件格式要求
.csv或.xlsx文件中的一列可以是待标注的文本内容,或者是图片,音频或视频的URL。
文件Demo参考
导入形式为文件夹
本文以图像为例进行说明,视频、音频类文件操作同理。
对比项
方式一:本地上传
方式二:OSS上传
操作流程
在本地创建一个包含图像的文件夹。
本地上传文件夹仅支持单个文件夹上传,包含子文件夹内数据,重复上传会覆盖之前的上传数据。支持识别的文件类型为图片/视频/音频。
在创建原始数据集页面配置如下关键参数:
数据导入选择本地上传。
导入形式选择文件夹。
选择已创建的OSS Bucket和对应的OSS文件路径。
单击上传文件夹,上传本地已创建的文件夹。
将图像文件上传至阿里云OSS,生成OSS存储路径URL,具体操作,请参见上传文件。
在创建原始数据集页面配置如下关键参数:
数据导入选择OSS上传。
导入形式选择文件夹。
配置数据文件目录的Endpoint,OSS Bucket和OSS文件路径。
单击授权检测,检测文件路径授权是否通过。
数据集上传后,需要确认导入字段,包括数据类型和数据集字段名。
确认数据安全等级,不同安全等级的数据有不同的要求。
单击创建。