高质量的数据集是高精度模型的基础,也是数据准备的核心目标。您可以通过数据集管理模块将本地数据、阿里云存储中的数据及公共数据集进行注册,也可以通过扫描OSS文件夹生成索引数据集,从而统一管理PAI的相关数据,为数据标注及模型训练环节做准备。本文介绍如何注册数据集。

背景信息

数据集管理模块提供多种数据集注册方式,您需要结合数据来源及应用场景选择合适的注册方式:

前提条件

已创建AI工作空间,注册的数据集均与该AI工作空间绑定。关于如何创建AI工作空间,请参见AI工作空间

进入数据集管理

  1. 进入数据集管理页面。
    1. 登录PAI控制台
    2. 在左侧导航栏,选择AI资产管理 > 数据集管理2.0
  2. 选择AI工作空间

通过本地上传的方式注册数据集

  1. 进入数据集管理
  2. 数据集管理页面,选择创建数据集 > 本地上传
  3. 从本地文件创建数据集面板的基本信息配置向导页面,配置如下参数,并单击下一步
    本地上传-基本信息
    参数 描述
    名称 数据集的名称,长度为1~100个字符,以小写字母、大写字母、数字或中文开头,可以包含下划线(_)或短划线(-)。
    版本 同一个数据集可以存在不同版本,用于同一模型训练场景的不同实验数据集对比。
    属性 支持以下属性:
    • 文件:选择一个具体的文件,注册好的数据集会对应该具体文件的路径。
    • 文件夹:选取一个文件夹路径,可被挂载在容器中。
    数据集类型 注册数据的类型,支持以下取值:
    • 图片
    • 文本
    • 音频
    • 视频
    • 通用
    数据集类型是可选项,默认为通用类型。如果您选择了特定类型,则在后续的标注场景中,系统会帮您进行数据集筛选。
    可见性 数据集的可见性,支持以下取值:
    • 私有:在此AI工作空间中,仅对您和管理员可见。
    • 公共:在此AI工作空间中,对所有人可见。
    描述 对数据集进行自定义描述,以区分不同的数据集。
  4. 从本地文件创建数据集面板的数据存储和文件配置向导页面,配置如下参数,并单击下一步
    本地上传-数据存储和文件
    参数 描述
    选择数据存储 目前仅支持将本地数据存储到OSS中。
    选择上传路径 选择一个当前地域下的OSS路径,系统会将本地数据存到该OSS路径下。如果当前地域没有可选的Bucket,您可以单击创建Bucket进行创建。
    上传数据集文件 单击上传 > 上传单个文件,并按照提示选择目标文件,再单击开始上传上传您的本地文件。系统会将该文件上传到您指定的OSS路径中,同时也会在PAI中注册该来源的数据集。
    高级配置下的默认挂载路径
    数据的默认挂载路径,可用于PAI-DLC和PAI-DSW中:
    • 在PAI-DSW中,创建实例时,可以将已经创建的文件系统挂载在该路径。
    • 在PAI-DLC中,运行代码时,系统会按照该存储目录寻找文件。例如python /root/data/file.py
  5. 从本地文件创建数据集面板的确认详细信息配置向导页面,确认数据集信息,并单击提交

通过PAI提供的公共数据集注册数据集

  1. 进入数据集管理
  2. 数据集管理页面,选择创建数据集 > 公共数据集
  3. 使用公开数据集来创建数据集面板的选择公共数据集配置向导页面,选择公共数据集,并单击下一步
    PAI的公共数据集来自官方的开源数据集,存在阿里云的公共读取存储中。您可以直接注册这些PAI的公开数据集,并且无需在自己的数据存储中创建副本。当您选择使用的公开数据集时,系统默认拉取该数据集存储的OSS目录。
  4. 使用公开数据集来创建数据集面板的确认详细信息配置向导页面,确认数据集信息,并单击提交

从阿里云存储注册数据集

  1. 进入数据集管理
  2. 数据集管理页面,选择创建数据集 > 从阿里云存储
  3. 从数据存储创建数据集面板的基本信息配置向导页面,配置如下参数,并单击下一步
    阿里云存储-基本信息
    参数 描述
    名称 数据集的名称,长度为1~100个字符,以小写字母、大写字母、数字或中文开头,可以包含下划线(_)或短划线(-)。
    版本 同一个数据集可以存在不同版本,用于同一模型训练场景的不同实验数据集对比。
    属性 支持以下属性:
    • 文件:选择一个具体的文件,注册好的数据集会对应该具体文件的路径。
    • 文件夹:选取一个文件夹路径,可被挂载在容器中。
    数据集类型 注册数据的类型,支持以下取值:
    • 图片
    • 文本
    • 音频
    • 视频
    • 通用
    数据集类型是可选项,默认为通用类型。如果您选择了特定类型,则在后续的标注场景中,系统会帮您进行数据集筛选。
    可见性 数据集的可见性,支持以下取值:
    • 私有:在此AI工作空间中,仅对您和管理员可见。
    • 公共:在此AI工作空间中,对所有人可见。
    描述 对数据集进行自定义描述,以区分不同的数据集。
  4. 从数据存储创建数据集面板的数据存储选择配置向导页面,配置如下参数,并单击下一步
    从阿里云存储-数据存储选择
    参数 描述
    选择数据存储 数据集存储的类型,支持以下取值:
    • 阿里云对象存储(OSS)
    • 阿里云文件存储(NAS):NAS仅支持属性文件夹的数据集。
    路径 选择数据存储阿里云对象存储(OSS)时,选择一个当前地域下的OSS路径,系统会将路径下的数据注册为数据存到该OSS路径下。如果当前地域没有可选的Bucket,您可以单击创建Bucket进行创建。
    选择NAS文件系统 选择数据存储阿里云文件存储(NAS)时,选择对应的NAS文件系统。选择NAS文件系统NAS路径
    NAS路径 选择数据存储阿里云文件存储(NAS)时,填写NAS的存储路径。
    高级配置下的默认挂载路径
    数据的默认挂载路径,可用于PAI-DLC和PAI-DSW中:
    • 在PAI-DSW中,创建实例时,可以将已经创建的文件系统挂载在该路径。
    • 在PAI-DLC中,运行代码时,系统会按照该存储目录寻找文件。例如python /root/data/file.py
  5. 从数据存储创建数据集面板的确认详细信息配置向导页面,确认数据集信息,并单击提交

通过扫描文件夹的方式注册数据集

  1. 进入数据集管理
  2. 数据集管理页面,选择创建数据集 > 扫描文件夹创建数据集
  3. 扫描文件夹创建数据集面板的基本信息配置向导页面,配置如下参数,并单击下一步
    扫描文件-基本信息
    参数 描述
    名称 数据集的名称,长度为1~100个字符,以小写字母、大写字母、数字或中文开头,可以包含下划线(_)或短划线(-)。
    版本 同一个数据集可以存在不同版本,用于同一模型训练场景的不同实验数据集对比。
    属性 支持以下属性:
    • 文件:选择一个具体的文件,注册好的数据集会对应该具体文件的路径。
    • 文件夹:选取一个文件夹路径,可被挂载在容器中。
    数据集类型 注册数据的类型,支持以下取值:
    • 图片
    • 文本
    • 音频
    • 视频
    • 通用
    数据集类型是可选项,默认为通用类型。如果您选择了特定类型,则在后续的标注场景中,系统会帮您进行数据集筛选。
    可见性 数据集的可见性,支持以下取值:
    • 私有:在此AI工作空间中,仅对您和管理员可见。
    • 公共:在此AI工作空间中,对所有人可见。
    描述 对数据集进行自定义描述,以区分不同的数据集。
  4. 扫描文件夹创建数据集面板的扫描创建数据集配置向导页面,配置如下参数,并单击下一步
    扫描文件-扫描数据集
    参数 描述
    扫描文件夹路径 选择一个当前地域下的OSS目录,系统会将该目录中的文件扫描生成.manifest索引文件,用于PAI数据标注等场景。如果当前地域下没有可选的Bucket,您可以单击创建Bucket进行创建。
    路径通配符 根据您的数据情况,配置合适的通配符:
    • 如果扫描OSS目录下的所有文件,则配置路径通配符*
    • 如果扫描OSS目录下的所有JPG文件,则配置路径通配符*.jpg
    • 如果扫描OSS目录下的所有WAV文件,则配置路径通配符*/*.wav
    预览 单击开始扫描,系统会根据选择的OSS路径和通配符,索引相关联的文件并按照.manifest格式预览。
    扫描结果文件保存路径 扫描后将得到一个dataset_xxx.manifest文件,您需要选择该文件保存的OSS路径。
  5. 扫描文件夹创建数据集面板的确认详细信息配置向导页面,确认数据集信息,并单击提交