创建及管理数据集

在进行数据处理或模型训练之前,您需要准备好指定的数据集。PAI-AI资产管理提供了强大的数据集管理功能,允许您创建和管理数据集及其多个版本。通过数据集版本管理,您可以精确复现实验、追踪数据版本、记录数据变更的血缘关系,并在新版本出现问题时快速切换至旧版本,从而确保业务的连续性。

数据集简介

数据集管理功能支持对基础数据集和标注数据集进行全面管理。基础数据集通常包含大量的原始信息,主要用于预训练模型以捕捉广泛的特征和模式;标注数据集是经过人工标注的、具有明确标签的数据,主要用于模型微调和评估,以提高模型在特定任务上的性能。

项目

基础数据集

标注数据集

定义

未经标注的原始数据

经人工标注的带标签数据

数据处理

数据清洗、去重等

数据标注、验证等

应用场景

  • 无监督学习

  • 预训练模型,捕捉广泛特征

  • 监督学习、模型评估

  • 微调模型,提高特定任务性能

进入数据集管理

  1. 登录PAI控制台

  2. 在顶部左上角根据实际情况选择地域。

  3. 在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间内。

  4. 在左侧导航栏选择AI资产管理 > 数据集

创建基础数据集

自定义数据集 > 基础数据集页签下单击新建数据集,在创建数据集时,数据存储类型支持对象存储(OSS)、文件存储(通用型NAS、极速型NAS、CPFS、智算CPFS)和云原生大数据计算服务(MaxCompute),关键参数配置如下:

image

存储类型为对象存储(OSS)

参数

描述

类型

选择数据的类型,支持图片、文本、音频、视频、表格、通用。如果选择了特定类型,则在后续的标注场景中,系统会帮您进行数据集筛选。

所有者

选择数据集所有者。仅工作空间管理员可配置该参数

导入格式/OSS路径

  • 当导入格式为文件时,OSS路径需选择一个文件,创建好的数据集将与此文件相对应,常用于iTAG的数据集创建。

  • 当导入格式为文件夹时,OSS路径需选择一个文件夹路径,可被挂载在容器中,常用于DSWDLCEAS的数据集。

默认挂载路径

数据的默认挂载路径,常用于DSWDLC中:

  • DSW中,创建实例时,可以将已创建的文件系统挂载到该路径。

  • DLC中,运行代码时,系统会在该目录下寻找文件,例如python /root/data/file.py

开启版本加速

导入格式选择文件夹时,支持开启数据集版本加速。关键配置如下:

  • 最大容量:配置数据集加速槽容量。该容量需要大于等于数据集容量,您可以参考需要加速的数据集容量来配置。

  • 加速挂载点:默认使用内部挂载点,您也可以选择已有的加速挂载点或新建挂载点。

    说明

    在使用灵骏智算资源场景时,如果加速挂载点选择为新建挂载点,则挂载点类型需选择VPC,且选择的VPC和交换机需要与灵骏智算资源一致。

  • 加速版本默认挂载路径:数据集版本的默认挂载路径。

存储类型为文件存储

参数

描述

类型

选择数据的类型,支持图片、文本、音频、视频、表格、通用。如果选择了特定类型,则在后续的标注场景中,系统会帮您进行数据集筛选。

所有者

选择数据集所有者。仅工作空间管理员可配置该参数

选择文件系统

选择文件系统,和数据存储类型对应。

文件系统挂载点

配置挂载点来访问NAS文件系统。

文件系统路径

配置NAS中已有的存储路径。例如/

默认挂载路径

数据的默认挂载路径,常用于DSWDLC中:

  • DSW中,创建实例时,可以将已创建的文件系统挂载到该路径。

  • DLC中,运行代码时,系统会在该目录下寻找文件,例如python /root/data/file.py

开启版本加速

当数据存储类型为通用型NAS、极速型NASCPFS时,支持开启数据集版本加速。关键配置如下:

  • 最大容量:配置数据集加速槽容量。该容量需要大于等于数据集容量,您可以参考需要加速的数据集容量来配置。

  • 加速版本默认挂载路径:数据集版本的默认挂载路径。

存储类型为云原生大数据计算服务(MaxCompute)

参数

描述

类型

仅支持表格类型的数据。

所有者

选择数据集所有者。仅工作空间管理员可配置该参数

默认挂载路径

数据的默认挂载路径,常用于DSWDLC中:

  • DSW中,创建实例时,可以将已创建的文件系统挂载到该路径。

  • DLC中,运行代码时,系统会在该目录下寻找文件,例如python /root/data/file.py

开启版本加速

支持开启数据集版本加速。关键配置如下:

  • 加速初始化配置:配置加速初始化代码后单击测试分区选择配置

  • 加速挂载点:默认使用内部挂载点,您也可以选择已有的加速挂载点或新建挂载点。

    说明

    在使用灵骏智算资源场景时,如果加速挂载点选择为新建挂载点,则挂载点类型需选择VPC,且选择的VPC和交换机需要与灵骏智算资源一致。

  • 加速版本默认挂载路径:数据集版本的默认挂载路径。

新建基础数据集版本

自定义数据集 > 基础数据集页签下单击指定数据集操作列的新建版本

image

关键说明如下:

  • 数据集名称、存储类型、数据类型与原数据集V1版本相同,不可修改。

  • 数据集版本由系统默认生成,不可修改。

  • 其他关键参数配置,请参见创建基础数据集中的参数说明。

查看公共数据集

系统内置多种公共数据集(如MMLU、CMMLU、GSM8K等),您可以在公共数据集页签下单击数据集名称,查看公共数据集基本信息。

image

管理数据集

对于基础数据集,您可以对其进行版本列表查看、新建版本、公开和删除等操作;对于标注数据集,您可以对其进行数据查看、公开和删除等操作。

image

关键说明如下:

  • 对于可见范围仅数据集所有者可见的数据集,您也可以单击公开数据集,将数据集在工作空间内公开,让所有工作空间成员均可以查看该数据集。一旦公开后,该数据集后续不能再转为仅数据集所有者可见,请谨慎操作。

  • 通过RAM用户查看数据集数据时,如果提示没有访问权限,请RAM用户授权

  • 删除数据集时,可能会影响已有的任务正常运行。一旦删除,则不可恢复,请谨慎操作。