高质量的数据集是高精度模型的基础,是数据准备的核心目标。阿里云PAI提供数据集管理模块,支持将各类数据(本地数据、阿里云存储中的数据等)注册为数据集,也支持扫描OSS文件夹生成索引数据集,为智能标注、模型训练做准备。本文介绍如何创建数据集和管理数据集。

背景信息

数据集管理模块提供多种创建数据集方式,您可以结合数据来源及应用场景选择合适的方式:
  • 创建数据集:从阿里云存储

    您可以将阿里云对象存储OSS或阿里云文件存储NAS中的数据注册为PAI的数据集,用于后续的数据处理及建模。

  • 创建数据集:本地上传

    您可以将本地文件注册为PAI数据集,将本地文件上传至阿里云对象存储OSS中,用于后续的数据处理及建模。

  • 创建数据集:扫描文件夹创建数据集

    PAI支持扫描OSS目录中的文件,自动生成.manifest索引文件,并将索引文件创建为数据集,此场景主要用于智能标注(iTAG)场景。

  • 创建数据集:公共数据集

    PAI的公共数据集来自官方的开源数据集,存在阿里云的公共读取存储中。您可以直接注册这些PAI的公开数据集,并且无需在自己的数据存储中创建副本。该注册数据集可以用于后续的数据处理及建模。

前提条件

已创建AI工作空间,注册的数据集均与该AI工作空间绑定。关于如何创建AI工作空间,请参见创建工作空间

创建数据集:从阿里云存储

  1. 进入数据集管理页面。
    1. 登录PAI控制台
    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。
    3. 在左侧导航栏,选择AI资产管理 > 数据集
  2. 数据集管理页面,单击创建数据集
  3. 创建数据集面板配置如下参数。
    从阿里云存储
    参数 描述
    创建方式 选择从阿里云存储
    数据集名称 数据集的名称,命名规则如下:
    • 以小写字母、大写字母、数字或中文开头。
    • 可以包含下划线(_)或短划线(-)。
    • 长度为1~127个字符。
    描述 对数据集进行自定义描述,以区分不同的数据集。
    版本 同一个数据集可以存在不同版本,用于同一模型训练场景的不同实验数据集对比。
    可见范围 数据集的可见性,支持以下取值:
    • 仅自己可见:在此AI工作空间中,仅对您和管理员可见。
    • 工作空间内公开可见:在此AI工作空间中,对所有人可见。
    数据集类型 注册数据的类型,支持以下取值:
    • 图片
    • 文本
    • 音频
    • 视频
    • 通用
    数据集类型是可选项,默认为通用类型。如果您选择了特定类型,则在后续的标注场景中,系统会帮您进行数据集筛选。
    选择数据存储 数据集存储的类型,支持以下取值:
    • 阿里云对象存储(OSS)
    • 阿里云文件存储(NAS)
    其中NAS仅支持属性文件夹的数据集。
    属性 选择数据存储阿里云对象存储(OSS)时,支持设置该参数。
    支持以下取值:
    • 文件:选择一个具体的文件,用于智能标注(iTAG)的数据集建议选择为文件,注册好的数据集会对应该具体文件的路径。
    • 文件夹:选取一个文件夹路径,用于DSW、DLC的数据集建议选择为文件夹,可被挂载在容器中。
    从阿里云云存储创建 选择数据存储阿里云对象存储(OSS)时,才需要配置该参数。

    您可以根据界面提示选择一个当前地域下OSS Bucket内的一个文件。如果当前地域没有可选的Bucket,您可以单击创建Bucket进行创建。

    选择NAS文件系统 选择数据存储阿里云文件存储(NAS)时,才需要配置该参数。

    您可以根据界面提示选择一个当前地域下的NAS文件系统。

    NAS路径 选择数据存储阿里云文件存储(NAS)时,才需要配置该参数。

    配置数据集在NAS中的存储路径。

    默认挂载路径
    数据的默认挂载路径,可用于PAI-DLC和PAI-DSW中:
    • 在PAI-DSW中,创建实例时,可以将已经创建的文件系统挂载在该路径。
    • 在PAI-DLC中,运行代码时,系统会按照该存储目录寻找文件。例如python /root/data/file.py
  4. 单击提交

创建数据集:本地上传

  1. 进入数据集管理页面。
    1. 登录PAI控制台
    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。
    3. 在左侧导航栏,选择AI资产管理 > 数据集
  2. 数据集管理页面,单击创建数据集
  3. 创建数据集面板配置如下参数。
    本地上传
    参数 描述
    创建方式 选择本地上传
    数据集名称 数据集的名称,命名规则如下:
    • 以小写字母、大写字母、数字或中文开头。
    • 可以包含下划线(_)或短划线(-)。
    • 长度为1~127个字符。
    描述 对数据集进行自定义描述,以区分不同的数据集。
    版本 同一个数据集可以存在不同版本,用于同一模型训练场景的不同实验数据集对比。
    可见范围 数据集的可见性,支持以下取值:
    • 仅自己可见:在此AI工作空间中,仅对您和管理员可见。
    • 工作空间内公开可见:在此AI工作空间中,对所有人可见。
    数据集类型 注册数据的类型,支持以下取值:
    • 图片
    • 文本
    • 音频
    • 视频
    • 通用
    数据集类型是可选项,默认为通用类型。如果您选择了特定类型,则在后续的标注场景中,系统会帮您进行数据集筛选。
    属性 支持以下取值:
    • 文件:选择一个具体的文件,用于智能标注(iTAG)的数据集建议选择为文件,注册好的数据集会对应该具体文件的路径。
    • 文件夹:选取一个文件夹路径,用于DSW、DLC的数据集建议选择为文件夹,可被挂载在容器中。
    上传数据集文件

    您可以按照以下操作步骤上传数据集文件:

    1. 选定OSS上传路径。如果当前区域没有可选的Bucket,您可以单击创建Bucket进行创建。
    2. 单击上传本地文件,您可以根据界面提示选择待上传的本地文件。
    3. 单击开始上传
    默认挂载路径
    数据的默认挂载路径,可用于PAI-DLC和PAI-DSW中:
    • 在PAI-DSW中,创建实例时,可以将已经创建的文件系统挂载在该路径。
    • 在PAI-DLC中,运行代码时,系统会按照该存储目录寻找文件。例如python /root/data/file.py
  4. 单击提交

创建数据集:扫描文件夹创建数据集

  1. 进入数据集管理页面。
    1. 登录PAI控制台
    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。
    3. 在左侧导航栏,选择AI资产管理 > 数据集
  2. 数据集管理页面,单击创建数据集
  3. 创建数据集面板配置如下参数。
    扫描文件夹创建数据集
    参数 描述
    创建方式 选择扫描文件夹创建数据集
    数据集名称 数据集的名称,命名规则如下:
    • 以小写字母、大写字母、数字或中文开头。
    • 可以包含下划线(_)或短划线(-)。
    • 长度为1~127个字符。
    描述 对数据集进行自定义描述,以区分不同的数据集。
    版本 同一个数据集可以存在不同版本,用于同一模型训练场景的不同实验数据集对比。
    可见范围 数据集的可见性,支持以下取值:
    • 仅自己可见:在此AI工作空间中,仅对您和管理员可见。
    • 工作空间内公开可见:在此AI工作空间中,对所有人可见。
    数据集类型 注册数据的类型,支持以下取值:
    • 图片
    • 文本
    • 音频
    • 视频
    • 通用
    数据集类型是可选项,默认为通用类型。如果您选择了特定类型,则在后续的标注场景中,系统会帮您进行数据集筛选。
    扫描文件夹路径 选择一个当前地域下的OSS目录,系统会将该目录中的文件扫描生成.manifest索引文件,用于PAI数据标注等场景。

    如果当前地域下没有可选的Bucket,您可以单击创建Bucket进行创建。

    路径通配符 根据您的数据情况,配置合适的通配符:
    • 如果扫描OSS目录下的所有文件,则配置路径通配符*
    • 如果扫描OSS目录下的所有JPG文件,则配置路径通配符*.jpg
    • 如果扫描OSS目录下的所有WAV文件,则配置路径通配符*/*.wav
    说明 OSS目录下支持扫描的文件数量最多为10万。
    预览 单击开始扫描,系统会根据选择的OSS路径和通配符,索引相关联的文件并按照.manifest格式预览。
    扫描结果文件保存路径 扫描后将得到一个dataset_xxx.manifest文件,您可以修改文件名称并选择该文件保存的OSS路径。
  4. 单击提交

创建数据集:公共数据集

  1. 进入数据集管理页面。
    1. 登录PAI控制台
    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。
    3. 在左侧导航栏,选择AI资产管理 > 数据集
  2. 数据集管理页面,单击创建数据集
  3. 创建数据集面板,创建方式选择公共数据集
  4. 选择合适的公共数据集,并单击提交
    PAI的公共数据集来自官方的开源数据集,存在阿里云的公共读取存储中。您可以直接注册这些PAI的公开数据集,并且无需在自己的数据存储中创建副本。当您选择使用的公开数据集时,系统默认拉取该数据集存储的OSS目录。

管理数据集

您可以进入数据集管理页面查看所有拥有权限的数据集列表,并对数据集进行查看详情、删除等操作。管理数据集
  • 您可以单击查看数据集直接跳转进入对应数据集所在的OSS或NAS存储路径,查看数据集详情,也可以单击删除,删掉废弃的数据集。
  • 对于可见范围为仅自己可见的数据集,您也可以单击公开数据集,将数据集在工作空间内公开,让所有工作空间成员均可以查看该数据集。
    注意 一旦公开数据集后,该数据集后续不能再转为仅自己可见的数据集,请谨慎操作。
  • 您可以对数据集设置标签,便于后续通过标签键和标签值来进行过滤查找数据集。
  • 您可以单击右上角的设置图标,对当前展示的数据集信息项目进行调整。