在进行数据处理或模型训练之前,您需要准备好指定的数据集。PAI-AI资产管理提供了强大的数据集管理功能,允许您创建和管理数据集及其多个版本。通过数据集版本管理,您可以精确复现实验、追踪数据版本、记录数据变更的血缘关系,并在新版本出现问题时快速切换至旧版本,从而确保业务的连续性。
数据集简介
数据集管理功能支持对基础数据集和标注数据集进行全面管理。基础数据集通常包含大量的原始信息,主要用于预训练模型以捕捉广泛的特征和模式;标注数据集是经过人工标注的、具有明确标签的数据,主要用于模型微调和评估,以提高模型在特定任务上的性能。
项目 | 基础数据集 | 标注数据集 |
定义 | 未经标注的原始数据 | 经人工标注的带标签数据 |
数据处理 | 数据清洗、去重等 | 数据标注、验证等 |
应用场景 |
|
|
进入数据集管理
登录PAI控制台。
在顶部左上角根据实际情况选择地域。
在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间内。
在左侧导航栏选择AI资产管理 > 数据集。
创建基础数据集
在自定义数据集 > 基础数据集页签下单击新建数据集,在创建数据集时,数据存储类型支持对象存储(OSS)、文件存储(通用型NAS、极速型NAS、CPFS、智算CPFS)和云原生大数据计算服务(MaxCompute),关键参数配置如下:
存储类型为对象存储(OSS)
参数 | 描述 |
类型 | 选择数据的类型,支持图片、文本、音频、视频、表格、通用。如果选择了特定类型,则在后续的标注场景中,系统会帮您进行数据集筛选。 |
所有者 | 选择数据集所有者。仅工作空间管理员可配置该参数。 |
导入格式/OSS路径 | |
默认挂载路径 | 数据的默认挂载路径,常用于DSW和DLC中:
|
开启版本加速 | 当导入格式选择文件夹时,支持开启数据集版本加速。关键配置如下:
|
存储类型为文件存储
参数 | 描述 |
类型 | 选择数据的类型,支持图片、文本、音频、视频、表格、通用。如果选择了特定类型,则在后续的标注场景中,系统会帮您进行数据集筛选。 |
所有者 | 选择数据集所有者。仅工作空间管理员可配置该参数。 |
选择文件系统 | 选择文件系统,和数据存储类型对应。 |
文件系统挂载点 | 配置挂载点来访问NAS文件系统。 |
文件系统路径 | 配置NAS中已有的存储路径。例如 |
默认挂载路径 | 数据的默认挂载路径,常用于DSW和DLC中:
|
开启版本加速 | 当数据存储类型为通用型NAS、极速型NAS或CPFS时,支持开启数据集版本加速。关键配置如下:
|
存储类型为云原生大数据计算服务(MaxCompute)
参数 | 描述 |
类型 | 仅支持表格类型的数据。 |
所有者 | 选择数据集所有者。仅工作空间管理员可配置该参数。 |
默认挂载路径 | 数据的默认挂载路径,常用于DSW和DLC中:
|
开启版本加速 | 支持开启数据集版本加速。关键配置如下:
|
新建基础数据集版本
在自定义数据集 > 基础数据集页签下单击指定数据集操作列的新建版本。
关键说明如下:
数据集名称、存储类型、数据类型与原数据集V1版本相同,不可修改。
数据集版本由系统默认生成,不可修改。
其他关键参数配置,请参见创建基础数据集中的参数说明。
查看公共数据集
系统内置多种公共数据集(如MMLU、CMMLU、GSM8K等),您可以在公共数据集页签下单击数据集名称,查看公共数据集基本信息。
管理数据集
对于基础数据集,您可以对其进行版本列表查看、新建版本、公开和删除等操作;对于标注数据集,您可以对其进行数据查看、公开和删除等操作。
关键说明如下:
对于可见范围为仅数据集所有者可见的数据集,您也可以单击公开数据集,将数据集在工作空间内公开,让所有工作空间成员均可以查看该数据集。一旦公开后,该数据集后续不能再转为仅数据集所有者可见,请谨慎操作。
通过RAM用户查看数据集数据时,如果提示没有访问权限,请为RAM用户授权。
删除数据集时,可能会影响已有的任务正常运行。一旦删除,则不可恢复,请谨慎操作。