在创建标注任务时,需要选择数据集。本文为您介绍如何创建用于数据标注的数据集,以及数据集的具体格式要求。
前提条件
使用主账号开通PAI并创建工作空间。登录PAI控制台,左上角选择开通区域,然后一键授权和开通产品。
标注数据必须最终存储在对象存储OSS中,因此需要:
已开通OSS服务,并创建与当前PAI相同地域的Bucket,操作详情请参见控制台快速入门。
已获取OSS Bucket所在地域对应的Endpoint,详情请参见OSS地域和访问域名。
操作步骤
进入智能标注(iTAG)。
登录PAI控制台。
在左侧导航栏单击工作空间列表,单击待操作的工作空间名称,进入对应工作空间。
在左侧导航栏,选择数据准备>智能标注(iTAG)。
单击上传数据,跳转至管理中心>资产管理页面的创建原始数据集弹窗。
具体参数配置说明如下:
填写数据集名称。
上传数据集。
导入形式为文件
对比项
方式一:本地上传
方式二:OSS上传
文件后缀类型要求
.csv
、.xlsx
或.manifest
。文件格式要求
.csv
或.xlsx
文件中的一列可以是待标注的文本内容,或者是图片,音频或视频的URL。操作流程
根据文件格式要求,在本地创建数据文件。
数据集创建页面配置如下关键参数:
数据导入:选择本地上传。
导入形式:选择文件。
OSS Bucket:选择创建的OSS Bucket。
OSS文件路径:选择OSS中的文件路径。
单击上传文件,上传本地数据文件。
前提条件:需要数据文件已存储在OSS中。
数据集创建页面配置如下关键参数:
数据导入:选择OSS上传。
导入形式:选择文件。
Endpoint:填写地域所在Endpoint。
OSS Bucket:选择创建的OSS Bucket。
OSS文件路径:选择OSS中的文件路径。
单击授权检测,检测文件路径授权是否通过。
文件Demo参考
导入形式为文件夹
本文以图像为例进行说明,视频、音频类文件操作同理。
对比项
方式一:本地上传
方式二:OSS上传
操作流程
在本地创建一个包含图像的文件夹。
仅支持单个文件夹上传,会自动读取子文件夹内数据。
支持识别的文件类型为图片/视频/音频。
数据集创建页面配置如下关键参数:
数据导入:选择本地上传。
导入形式:选择文件夹。
OSS Bucket:选择创建的OSS Bucket。
OSS文件路径:选择OSS中的文件路径。
单击上传文件夹,上传本地已创建的文件夹。
将图像文件上传至OSS,生成OSS存储路径URL,具体操作,请参见上传文件。
数据集创建页面配置如下关键参数:
数据导入:选择OSS上传。
导入形式:选择文件夹。
Endpoint:填写地域所在Endpoint。
OSS Bucket:选择创建的OSS Bucket。
OSS文件路径:选择OSS中的文件路径。
单击授权检测,检测文件路径授权是否通过。
数据集上传后,需要确认导入字段,包括数据类型和数据集字段名。
根据控制台提示确认数据安全等级。
单击创建。
常见问题
1. 如何将NAS或CPFS的数据迁移至OSS中?
您可以通过中转节点,并使用ossutil工具将数据上传至OSS中,操作步骤如下:
先将 NAS 或 CPFS 数据挂载到一台中转服务器(如 ECS)。
使用ossutil工具将数据从中转服务器上传至 OSS。