创建数据集

在创建标注任务时,需要选择数据集。本文为您介绍如何创建用于数据标注的数据集,以及数据集的具体格式要求。

前提条件

  • 使用主账号开通PAI并创建工作空间。登录PAI控制台,左上角选择开通区域,然后一键授权和开通产品。

  • 标注数据必须最终存储在对象存储OSS中,因此需要:

操作步骤

  1. 进入智能标注(iTAG)。

    1. 登录PAI控制台

    2. 在左侧导航栏单击工作空间列表,单击待操作的工作空间名称,进入对应工作空间。

    3. 在左侧导航栏,选择数据准备>智能标注(iTAG)

  2. 单击上传数据,跳转至管理中心>资产管理页面的创建原始数据集弹窗。

    image

    具体参数配置说明如下:

    1. 填写数据集名称。

    2. 上传数据集。

      • 导入形式为文件

        对比项

        方式一:本地上传

        方式二:OSS上传

        文件后缀类型要求

        .csv.xlsx.manifest

        文件格式要求

        .csv.xlsx文件中的一列可以是待标注的文本内容,或者是图片,音频或视频的URL。

        操作流程

        1. 根据文件格式要求,在本地创建数据文件。

        2. 数据集创建页面配置如下关键参数:

          • 数据导入:选择本地上传

          • 导入形式:选择文件

          • OSS Bucket:选择创建的OSS Bucket。

          • OSS文件路径:选择OSS中的文件路径。

        3. 单击上传文件,上传本地数据文件。

        1. 前提条件:需要数据文件已存储在OSS中。

        2. 数据集创建页面配置如下关键参数:

          • 数据导入:选择OSS上传

          • 导入形式:选择文件

          • Endpoint:填写地域所在Endpoint。

          • OSS Bucket:选择创建的OSS Bucket。

          • OSS文件路径:选择OSS中的文件路径。

        3. 单击授权检测,检测文件路径授权是否通过。

        文件Demo参考

        textDemo1.manifesttextDemo2.csv

      • 导入形式为文件夹

        本文以图像为例进行说明,视频、音频类文件操作同理。

        对比项

        方式一:本地上传

        方式二:OSS上传

        操作流程

        1. 在本地创建一个包含图像的文件夹。

          • 仅支持单个文件夹上传,会自动读取子文件夹内数据。

          • 支持识别的文件类型为图片/视频/音频

        2. 数据集创建页面配置如下关键参数:

          • 数据导入:选择本地上传

          • 导入形式:选择文件夹

          • OSS Bucket:选择创建的OSS Bucket。

          • OSS文件路径:选择OSS中的文件路径。

        • 单击上传文件夹,上传本地已创建的文件夹。

        1. 将图像文件上传至OSS,生成OSS存储路径URL,具体操作,请参见上传文件

        2. 数据集创建页面配置如下关键参数:

          • 数据导入:选择OSS上传

          • 导入形式:选择文件夹

          • Endpoint:填写地域所在Endpoint。

          • OSS Bucket:选择创建的OSS Bucket。

          • OSS文件路径:选择OSS中的文件路径。

        3. 单击授权检测,检测文件路径授权是否通过。

    3. 数据集上传后,需要确认导入字段,包括数据类型数据集字段名

    4. 根据控制台提示确认数据安全等级

  3. 单击创建

常见问题

1. 如何将NASCPFS的数据迁移至OSS中?

您可以通过中转节点,并使用ossutil工具将数据上传至OSS中,操作步骤如下:

  1. 先将 NAS 或 CPFS 数据挂载到一台中转服务器(如 ECS)。

  2. 使用ossutil工具将数据从中转服务器上传至 OSS。