文档

创建及管理数据集

更新时间:

高质量的数据集是高精度模型的基础,是数据准备的核心目标。阿里云PAI提供数据集管理模块,支持将各类数据(公共数据集、阿里云云产品中的数据等)创建为数据集,也支持扫描OSS文件夹生成索引数据集,为智能标注、模型训练做准备。本文介绍如何创建数据集和管理数据集。

功能介绍

数据集管理模块提供多种创建数据集方式,您可以结合数据来源及应用场景选择合适的方式:

  • 创建数据集:从阿里云云产品

    您可以将阿里云对象存储OSS或阿里云文件存储中的数据创建为PAI的数据集,用于后续的数据处理和模型训练。

  • 创建数据集:扫描文件夹创建数据集

    iTAG场景下,PAI支持扫描OSS目录中的文件,自动生成.manifest索引文件,并将该索引文件作为数据创建为数据集。

  • 创建数据集:公共数据集

    PAI的公共数据集来自开源数据集,存在阿里云的公共读取存储中。您可以直接创建这些PAI的公共数据集,无需在自己的数据存储中创建副本。该数据集可以用于后续的数据处理和模型训练。

前提条件

已创建工作空间,创建的数据集均与该工作空间绑定。关于如何创建工作空间,请参见创建工作空间

使用限制

  • 在华北6(乌兰察布)地域中,创建方式仅支持选择从阿里云云产品和扫描文件夹创建数据集。

  • 仅支持在华北6(乌兰察布)地域创建阿里云文件存储(智算CPFS)类型的数据集,不支持创建阿里云文件存储(CPFS)类型的数据集。

操作账号和权限要求

  • 阿里云主账号:使用该账号可完成所有操作,无需额外授权。

  • RAM用户:需要为RAM用户添加以下权限:

    • 数据集的相关权限

      需要将RAM用户添加为对应角色的工作空间成员,使其拥有对应操作的权限。各角色的权限详情可前往角色与权限列表页面查看。如何将RAM用户添加为工作空间成员,请参见管理工作空间成员image.png

    • 创建OSS类型数据集时,查看及使用OSS Bucket列表相应的权限

      使用以下脚本内容创建权限策略,并为RAM用户授权。关于如何创建权限策略,详情请参见创建自定义权限策略;关于如何为RAM用户授权,详情请参见为RAM用户授权

      {
          "Version": "1",
          "Statement": [
              {
                  "Effect": "Allow",
                  "Action": [
                            "oss:ListBuckets",
                            "oss:GetBucketStat",
                            "oss:GetBucketInfo",
                            "oss:GetBucketTagging",
                            "oss:GetBucketLifecycle",
                            "oss:GetBucketWorm",                      
                            "oss:GetBucketVersioning", 
                            "oss:GetBucketAcl" 
                            ],    
                  "Resource": "acs:oss:*:*:*"
              },
              {
                  "Effect": "Allow",
                  "Action": [
                      "oss:ListObjects",
                      "oss:GetBucketAcl"
                  ],
                  "Resource": "acs:oss:*:*:mybucket"
              },
              {
                  "Effect": "Allow",
                  "Action": [
                      "oss:GetObject",
                      "oss:GetObjectAcl"
                  ],
                  "Resource": "acs:oss:*:*:mybucket/*"
              }
          ]
      }
    • 创建NAS/CPFS类型数据集时,查看及使用NAS文件系统列表相应的权限,包括查询文件系统、查询协议服务相关信息(仅CPFS使用)的权限。

      使用以下脚本内容创建权限策略,并为RAM用户授权。关于如何创建权限策略,详情请参见创建自定义权限策略;关于如何为RAM用户授权,详情请参见为RAM用户授权

      {
          "Version": "1",
          "Statement": [
              {
                  "Effect": "Allow",
                  "Action": [
                      "nas:DescribeFileSystems",
                      "nas:DescribeProtocolMountTarget",
                      "nas:DescribeProtocolService "
                  ],
                  "Resource": "acs:nas:*:*:filesystem/*"
              }
          ]
      }

创建数据集:从阿里云云产品

  1. 进入数据集管理页面。

    1. 登录PAI控制台

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

    3. 在左侧导航栏,选择AI资产管理 > 数据集

  2. 数据集管理页面,单击创建数据集

  3. 创建数据集面板中,创建方式选择从阿里云云产品,并配置以下关键参数,其他参数参照控制台界面提示进行配置即可。

    从阿里云云产品

    其中选择数据存储支持配置为阿里云对象存储(OSS)阿里云文件存储(通用型NAS)、阿里云文件存储(极速型NAS)、阿里云文件存储(CPFS)阿里云文件存储(智算CPFS),使用各个云产品创建数据集时的参数配置说明如下:

    阿里云对象存储(OSS)

    选择数据存储配置为阿里云对象存储(OSS)时,参数配置如下表所示。

    参数

    描述

    属性

    支持以下取值:

    • 文件:选择一个具体的文件,用于iTAG的数据集建议选择为文件,创建好的数据集会对应该具体文件的路径。

    • 文件夹:选取一个文件夹路径,用于DSW、DLC或EAS的数据集建议选择为文件夹,可被挂载在容器中。

    可见范围

    数据集的可见性,支持以下取值:

    • 仅自己可见:在此工作空间中,仅对您和管理员可见。

    • 工作空间内公开可见:在此工作空间中,对所有人可见。

    数据集类型

    创建数据的类型,支持以下取值:

    • 图片

    • 文本

    • 音频

    • 视频

    • 通用

    数据集类型是可选项,默认为通用类型。如果您选择了特定类型,则在后续的标注场景中,系统会帮您进行数据集筛选。

    从阿里云云存储创建

    单击文件夹选择文件所在的OSS路径。在选择OSS目录对话框中,您可以选择已有的文件,也可以按照以下操作步骤上传本地文件。

    说明

    如果当前地域没有可选的Bucket,您可以单击创建Bucket进行创建。

    • Bucket所属地域与PAI的地域一致。

    • Bucket一旦创建,则无法更改其所属地域。

    1. 选择OSS目录对话框,单击上传文件

    2. 单击查看本地文件拖拽上传文件,根据提示上传本地文件。

    默认挂载路径

    数据的默认挂载路径,可用于DLCDSW中:

    • DSW中,创建实例时,可以将已创建的文件系统挂载在该路径。

    • DLC中,运行代码时,系统会按照该存储目录寻找文件。例如python /root/data/file.py

    开启数据集加速

    属性选择文件夹时,支持开启数据集加速。同时,您需要配置相关参数,即可开启数据集加速功能。

    其中:

    • 所属数据集加速实例:选择已创建的数据集加速实例。

    • 最大容量:配置数据集加速槽容量。该容量需要大于等于数据集容量,您可以参考需要加速的具体数据集容量来配置。

    • 加速挂载点:默认使用内部挂载点。您也可以选择已有的加速挂载点或新建挂载点。

      说明

      使用灵骏智算资源场景时,加速挂载点:新建挂载点的挂载点类型需选择VPC,且选择的VPC和交换机需要与灵骏智算资源一致。

    • 加速数据集默认挂载路径:数据集的默认挂载路径。

    阿里云文件存储

    选择数据存储配置为阿里云文件存储时,参数配置如下表所示。

    说明

    目前在EAS产品中仅支持挂载通用型NAS类型的数据集。

    参数

    描述

    可见范围

    数据集的可见性,支持以下取值:

    • 仅自己可见:在此工作空间中,仅对您和管理员可见。

    • 工作空间内公开可见:在此工作空间中,对所有人可见。

    数据集类型

    创建数据的类型,支持以下取值:

    • 图片

    • 文本

    • 音频

    • 视频

    • 通用

    数据集类型是可选项,默认为通用类型。如果您选择了特定类型,则在后续的标注场景中,系统会帮您进行数据集筛选。

    选择文件系统

    您可以根据界面提示选择一个当前地域下的NAS文件系统,支持选择以下几种类型的文件系统:

    说明
    • EAS产品仅支持挂载通用型NAS类型的数据集。

    • 仅支持在华北6(乌兰察布)地域创建智算CPFS类型的数据集。

    • DLCDSW产品支持挂载已配置传输加密的NAS文件系统。

    • 通用型NAS

    • 极速型NAS

    • CPFS

    • 智算CPFS

    文件系统挂载点

    通过挂载点来访问NAS文件系统。

    文件系统路径

    配置NAS中已有的存储路径。例如/

    默认挂载路径

    数据的默认挂载路径,可用于DLCDSW中:

    • DSW中,创建实例时,可以将已创建的文件系统挂载在该路径。

    • DLC中,运行代码时,系统会按照该存储目录寻找文件。例如python /root/data/file.py

    开启数据集加速

    选择文件系统配置为CPFS类型的文件系统时,支持开启数据集加速。同时,您需要配置相关参数,即可开启数据集加速功能。

    其中:

    • 所属数据集加速实例:选择已创建的数据集加速实例。

    • 最大容量:配置数据集加速槽容量。该容量需要大于等于数据集容量,您可以参考需要加速的具体数据集容量来配置。

    • 加速挂载点:默认使用内部挂载点。您也可以选择已有的加速挂载点或新建挂载点。

      说明

      使用灵骏智算资源场景时,加速挂载点:新建挂载点的挂载点类型需选择VPC,且选择的VPC和交换机需要与灵骏智算资源一致。

    • 加速数据集默认挂载路径:数据集的默认挂载路径。

  4. 单击提交

创建数据集:扫描文件夹创建数据集

选择一个当前地域下的OSS目录,系统会将该目录中的文件扫描生成.manifest索引文件,用于PAI数据标注等场景。具体操作步骤如下:

  1. 进入数据集管理页面。

    1. 登录PAI控制台

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

    3. 在左侧导航栏,选择AI资产管理 > 数据集

  2. 数据集管理页面,单击创建数据集

  3. 创建数据集面板配置如下参数。

    扫描文件夹创建数据集

    参数

    描述

    创建方式

    选择扫描文件夹创建数据集

    数据集名称

    自定义数据集的名称。

    可见范围

    数据集的可见性,支持以下取值:

    • 仅自己可见:在此工作空间中,仅对您和管理员可见。

    • 工作空间内公开可见:在此工作空间中,对所有人可见。

    数据集类型

    创建数据的类型,支持以下取值:

    • 图片

    • 文本

    • 音频

    • 视频

    • 通用

    数据集类型是可选项,默认为通用类型。如果您选择了特定类型,则在后续的标注场景中,系统会帮您进行数据集筛选。

    扫描文件夹路径

    选择一个当前地域下的OSS目录,如果当前地域下没有可选的Bucket,您可以单击创建Bucket进行创建。

    说明
    • 创建的Bucket所属地域与PAI的地域一致。

    • Bucket一旦创建,则无法更改其所属地域。

    路径通配符

    根据您的数据情况,配置合适的通配符:

    • 如果扫描OSS目录下的所有文件,则配置路径通配符*

    • 如果扫描OSS目录下的所有JPG文件,则配置路径通配符*.jpg

    • 如果扫描OSS目录下的所有WAV文件,则配置路径通配符*/*.wav

    说明

    OSS目录下支持扫描的文件数量最多为10万。

    预览

    单击开始扫描,系统会根据选择的OSS路径和通配符,索引相关联的文件并按照.manifest格式预览。

    扫描结果文件保存路径

    扫描后将得到一个dataset_xxx.manifest文件,您可以修改文件名称并选择该文件保存的OSS路径。

  4. 单击提交

创建数据集:公共数据集

  1. 进入数据集管理页面。

    1. 登录PAI控制台

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

    3. 在左侧导航栏,选择AI资产管理 > 数据集

  2. 数据集管理页面,单击创建数据集

  3. 创建数据集面板,创建方式选择公共数据集

  4. 选择合适的公共数据集,并单击提交

    PAI的公共数据集来自开源数据集,存在阿里云的公共读取存储中。您可以直接创建这些PAI的公共数据集,并且无需在自己的数据存储中创建副本。当您选择使用的公共数据集时,系统默认拉取该数据集存储的OSS目录。

管理数据集

您可以进入数据集管理页面查看所有拥有权限的数据集列表,并对数据集进行查看详情、删除等操作。image.png

  • 您可以单击查看数据集直接跳转进入对应数据集所在的OSS存储路径,查看数据集详情,也可以单击删除,删掉废弃的数据集。

    说明

    如果单击查看数据集跳转到OSS页面后,界面提示没有权限。您需要登录阿里云主账号为RAM用户授权 AliyunOSSFullAccess 操作权限,详情请参见步骤二:为RAM用户授权

  • 对于可见范围为仅自己可见的数据集,您也可以单击公开数据集,将数据集在工作空间内公开,让所有工作空间成员均可以查看该数据集。

    重要

    一旦公开数据集后,该数据集后续不能再转为仅自己可见的数据集,请谨慎操作。

  • 您可以对数据集设置标签,便于后续通过标签键和标签值来进行过滤查找数据集。

  • 您可以单击右上角的设置图标,对当前展示的数据集信息项目进行调整。

相关文档

若您希望使用快速开始的预训练模型,请参照提供的模型训练数据格式指南来准备您的数据集。详情请参见快速开始概述

  • 本页导读 (1)
文档反馈