创建及管理数据集

高质量的数据集是高精度模型的基础,是数据准备的核心目标。阿里云PAI提供数据集管理模块,支持将各类数据(阿里云云产品中的各类数据、扫描OSS文件夹)创建为数据集,同时也内置常用的第三方公共数据集,为智能标注、模型训练做准备。本文介绍如何创建数据集和管理数据集。

功能介绍

数据集管理模块支持创建自定义数据集和使用公共数据集:

  • 创建自定义数据集

    • 从阿里云云产品创建:您可以将对象存储OSS或文件存储中的数据创建为数据集,此方法常用于后续的数据处理和模型训练。

    • 通过扫描文件夹创建:支持扫描OSS目录中的文件,自动生成JSONL格式的索引文件(*.manifest),该索引文件即为数据集,适用于智能标注iTAG场景。

  • 使用公共数据集

    数据集管理模块内置多种公共数据集(例如MMLU、CMMLU、GSM8K等),这些数据集主要来源于第三方。阿里云不对其可用性、合规性和安全性承担任何责任。请您慎重考虑,在使用前查看第三方许可协议,确保合法合规使用。

前提条件

已创建工作空间,创建的数据集均与该工作空间绑定。关于如何创建工作空间,请参见创建工作空间

使用限制

  • 在华北6(乌兰察布)地域中,创建方式仅支持选择从阿里云云产品和扫描文件夹创建数据集。

  • 仅支持在华北6(乌兰察布)地域创建阿里云文件存储(智算CPFS)类型的数据集,不支持创建阿里云文件存储(CPFS)类型的数据集。

操作账号和权限要求

  • 阿里云主账号:使用该账号可完成所有操作,无需额外授权。

  • RAM用户:需要为RAM用户添加以下权限:

    • 数据集的相关权限

      需要将RAM用户添加为对应角色的工作空间成员,使其拥有对应操作的权限。各角色的权限详情可前往角色与权限列表页面查看。如何将RAM用户添加为工作空间成员,请参见管理工作空间成员image.png

    • 创建OSS类型数据集时,查看及使用OSS Bucket列表相应的权限

      使用以下脚本内容创建权限策略,并为RAM用户授权。关于如何创建权限策略,详情请参见创建自定义权限策略;关于如何为RAM用户授权,详情请参见RAM用户授权

      {
        "Version": "1",
        "Statement": [
          {
            "Effect": "Allow",
            "Action": [
              "oss:ListBuckets",
              "oss:GetBucketStat",
              "oss:GetBucketInfo",
              "oss:GetBucketTagging",
              "oss:GetBucketLifecycle",
              "oss:GetBucketWorm",
              "oss:GetBucketVersioning",
              "oss:GetBucketAcl",
              "oss:PutObject",
              "oss:GetBucketCors",
              "oss:PutBucketCors"
            ],
            "Resource": "acs:oss:*:*:*"
          },
          {
            "Effect": "Allow",
            "Action": [
              "oss:ListObjects",
              "oss:GetBucketAcl"
            ],
            "Resource": "acs:oss:*:*:mybucket"
          },
          {
            "Effect": "Allow",
            "Action": [
              "oss:GetObject",
              "oss:GetObjectAcl"
            ],
            "Resource": "acs:oss:*:*:mybucket/*"
          }
        ]
      }
    • 创建NAS/CPFS类型数据集时,查看及使用NAS文件系统列表相应的权限,包括查询文件系统、查询协议服务相关信息(仅CPFS使用)的权限。

      使用以下脚本内容创建权限策略,并为RAM用户授权。关于如何创建权限策略,详情请参见创建自定义权限策略;关于如何为RAM用户授权,详情请参见RAM用户授权

      {
        "Version": "1",
        "Statement": [
          {
            "Effect": "Allow",
            "Action": [
              "nas:DescribeFileSystems",
              "nas:DescribeProtocolMountTarget",
              "nas:DescribeProtocolService "
            ],
            "Resource": "acs:nas:*:*:filesystem/*"
          }
        ]
      }

创建自定义数据集

  1. 进入数据集管理页面。

    1. 登录PAI控制台

    2. 在顶部左上角根据实际情况选择地域。

    3. 在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间内。

    4. 在左侧导航栏选择AI资产管理 > 数据集

  2. 自定义数据集页签下单击创建数据集

    • 从阿里云云产品创建数据集

      从阿里云云产品创建数据集时,数据存储支持对象存储(OSS)、文件存储(通用型NAS、极速型NAS、CPFS、智算CPFS)和云原生大数据计算服务(MaxCompute),关键参数配置说明如下:

      说明
      • 当前EAS仅支持挂载数据存储为通用型NAS类型的数据集。

      • 仅支持在华北6(乌兰察布)地域创建数据存储为智算CPFS类型的数据集。

      • DLCDSW产品支持挂载已配置传输加密的NAS文件系统。

      数据存储为对象存储(OSS)

      参数

      描述

      属性

      • 文件:选择一个文件,创建好的数据集将与此文件相对应,常用于iTAG的数据集创建。

      • 文件夹:选取一个文件夹路径,可被挂载在容器中,常用于DSWDLCEAS的数据集。

      数据集所有者

      选择数据集所有者,仅工作空间管理员可配置该参数

      数据集类型

      选择数据的类型,支持图片、文本、音频、视频、通用。如果选择了特定类型,则在后续的标注场景中,系统会帮您进行数据集筛选。

      默认挂载路径

      数据的默认挂载路径,常用于DSWDLC中:

      • DSW中,创建实例时,可以将已创建的文件系统挂载到该路径。

      • DLC中,运行代码时,系统会在该目录下寻找文件,例如python /root/data/file.py

      开启数据集加速

      属性选择文件夹时,支持开启数据集加速。关键配置项说明如下:

      • 最大容量:配置数据集加速槽容量。该容量需要大于等于数据集容量,您可以参考需要加速的数据集容量来配置。

      • 加速挂载点:默认使用内部挂载点,您也可以选择已有的加速挂载点或新建挂载点。

        说明

        在使用灵骏智算资源场景时,如果加速挂载点选择为新建挂载点,则挂载点类型需选择VPC,且选择的VPC和交换机需要与灵骏智算资源一致。

      • 加速数据集默认挂载路径:加速数据集的默认挂载路径。

      数据存储为文件存储

      参数

      描述

      数据集所有者

      选择数据集所有者,仅工作空间管理员可配置该参数

      数据集类型

      选择数据的类型,支持图片、文本、音频、视频、通用。如果选择了特定类型,则在后续的标注场景中,系统会帮您进行数据集筛选。

      选择文件系统

      选择文件系统,和数据存储选择的文件存储类型对应。

      文件系统挂载点

      配置挂载点来访问NAS文件系统。

      文件系统路径

      配置NAS中已有的存储路径。例如/

      默认挂载路径

      数据的默认挂载路径,常用于DSWDLC中:

      • DSW中,创建实例时,可以将已创建的文件系统挂载到该路径。

      • DLC中,运行代码时,系统会在该目录下寻找文件,例如python /root/data/file.py

      开启数据集加速

      当数据存储为通用型NAS、极速型NASCPFS时,支持开启数据集加速。关键配置项说明如下:

      • 最大容量:配置数据集加速槽容量。该容量需要大于等于数据集容量,您可以参考需要加速的数据集容量来配置。

      • 加速挂载点:默认使用内部挂载点,您也可以选择已有的加速挂载点或新建挂载点。

        说明

        在使用灵骏智算资源场景时,如果加速挂载点选择为新建挂载点,则挂载点类型需选择VPC,且选择的VPC和交换机需要与灵骏智算资源一致。

      • 加速数据集默认挂载路径:加速数据集的默认挂载路径。

    • 扫描文件夹创建数据集

      参数

      描述

      数据集所有者

      选择数据集所有者,仅工作空间管理员可配置该参数

      数据集类型

      选择数据的类型,支持图片、文本、音频、视频、通用。如果选择了特定类型,则在后续的标注场景中,系统会帮您进行数据集筛选。

      路径通配符

      配置通配符扫描过滤指定格式的文件,扫描的文件数量上限为10万。

      预览

      单击开始扫描,系统会根据选择的OSS路径和通配符,索引相关联的文件并按照JSONL格式预览。

      扫描结果文件保存路径

      扫描后将得到一个dataset_****.manifest文件,您可以修改文件名称并选择该文件保存的OSS路径。

  3. 单击提交

公共数据集

  1. 进入数据集管理页面。

    1. 登录PAI控制台

    2. 在顶部左上角根据实际情况选择地域。

    3. 在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间内。

    4. 在左侧导航栏选择AI资产管理 > 数据集

  2. 公共数据集页签下单查看多种公共数据集。

    数据集管理模块内置多种公共数据集(例如:MMLU、CMMLU、GSM8K等),您可以单击数据集名称,了解数据集详情。

管理数据集

您可以进入数据集管理页面查看所有拥有权限的数据集列表,并对数据集进行查看详情、删除等操作。

image

  • 您可以单击查看数据集直接跳转进入对应数据集所在的OSS存储路径,查看数据集详情,也可以单击删除,删掉废弃的数据集。

    说明
    • 如果查看公共数据集时提示没有权限,您需要登录阿里云主账号为RAM用户授予AliyunOSSFullAccess权限,详情请参见步骤二:为RAM用户授权

    • 如果查看公共数据集时提示没有权限,且已经登录的用户已经被授予AliyunOSSFullAccess权限,请忽略并关闭提示窗口,可正常查看。

  • 对于可见范围为仅数据集所有者可见的数据集,您也可以单击公开数据集,将数据集在工作空间内公开,让所有工作空间成员均可以查看该数据集。

    重要

    一旦公开数据集后,该数据集后续不能再转为仅数据集所有者可见的数据集,请谨慎操作。

  • 您可以对数据集设置标签,便于后续通过标签键和标签值来进行过滤查找数据集。

  • 您可以单击右上角的设置图标,对当前展示的数据集信息项目进行调整。

相关文档

若您希望使用快速开始的预训练模型,请参照提供的模型训练数据格式指南来准备您的数据集。详情请参见快速开始概述