创建数据集

在创建标注任务的过程中,需要选择数据集。本文为您介绍如何创建用于数据标注的数据集,以及数据集的具体格式要求。

前提条件

操作步骤

  1. 进入智能标注(iTAG)。

    1. 登录PAI控制台

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间。

    3. 在左侧导航栏,选择数据准备>智能标注(iTAG)

  2. 单击上传数据,跳转至管理中心>资产管理页面的创建原始数据集弹窗。

    image

    具体参数配置说明如下:

    1. 自定义数据集名称和数据集描述(可选)。

    2. 上传数据集。

      • 导入形式为文件

        对比项

        方式一:本地上传

        方式二:OSS上传

        操作流程

        1. 根据下文的文件格式要求,在本地创建.csv.xlsx.manifest格式文件。

        2. 在创建原始数据集页面配置如下关键参数:

          • 数据导入选择本地上传

          • 导入形式选择文件

          • 选择已创建的OSS Bucket和对应的OSS文件路径

        3. 单击上传文件,上传本地已创建的文件。

        1. 前提条件:需要的数据文件已存在于阿里云OSS中。

        2. 在创建原始数据集页面配置如下关键参数:

          • 数据导入选择OSS上传

          • 导入形式选择文件

          • 配置数据文件的EndpointOSS BucketOSS文件路径

        3. 单击授权检测,检测文件路径授权是否通过。

        文件后缀类型要求

        .csv、.xlsx.manifest

        文件格式要求

        .csv.xlsx文件中的一列可以是待标注的文本内容,或者是图片,音频或视频的URL。

        文件Demo参考

        textDemo1.manifest

        textDemo2.csv

      • 导入形式为文件夹

        本文以图像为例进行说明,视频、音频类文件操作同理。

        对比项

        方式一:本地上传

        方式二:OSS上传

        操作流程

        1. 在本地创建一个包含图像的文件夹。

          本地上传文件夹仅支持单个文件夹上传,包含子文件夹内数据,重复上传会覆盖之前的上传数据。支持识别的文件类型为图片/视频/音频

        2. 在创建原始数据集页面配置如下关键参数:

          • 数据导入选择本地上传

          • 导入形式选择文件夹

          • 选择已创建的OSS Bucket和对应的OSS文件路径

        3. 单击上传文件夹,上传本地已创建的文件夹。

        1. 将图像文件上传至阿里云OSS,生成OSS存储路径URL,具体操作,请参见上传文件

        2. 在创建原始数据集页面配置如下关键参数:

          • 数据导入选择OSS上传

          • 导入形式选择文件夹

          • 配置数据文件目录的EndpointOSS BucketOSS文件路径

        3. 单击授权检测,检测文件路径授权是否通过。

    3. 数据集上传后,需要确认导入字段,包括数据类型数据集字段名

    4. 确认数据安全等级,不同安全等级的数据有不同的要求。

  3. 单击创建