创建及管理数据集
高质量的数据集是高精度模型的基础,是数据准备的核心目标。阿里云PAI提供数据集管理模块,支持将各类数据(本地数据、阿里云存储中的数据等)创建为数据集,也支持扫描OSS文件夹生成索引数据集,为智能标注、模型训练做准备。本文介绍如何创建数据集和管理数据集。
功能介绍
数据集管理模块提供多种创建数据集方式,您可以结合数据来源及应用场景选择合适的方式:
您可以将阿里云对象存储OSS或阿里云文件存储NAS中的数据创建为PAI的数据集,用于后续的数据处理和模型训练。
在iTAG场景下,PAI支持扫描OSS目录中的文件,自动生成.manifest索引文件,并将该索引文件作为数据创建为数据集。
PAI的公共数据集来自开源数据集,存在阿里云的公共读取存储中。您可以直接创建这些PAI的公共数据集,无需在自己的数据存储中创建副本。该数据集可以用于后续的数据处理和模型训练。
前提条件
已创建工作空间,创建的数据集均与该工作空间绑定。关于如何创建工作空间,请参见创建工作空间。
使用限制
仅支持在华北6(乌兰察布)地域创建智算CPFS类型的数据集。
操作账号和权限要求
阿里云主账号:使用该账号可完成所有操作,无需额外授权。
RAM用户:需要将RAM用户添加为对应角色的工作空间成员,使其拥有对应操作的权限,各角色的权限详情可前往角色与权限列表页面查看。
创建数据集:从阿里云云产品
进入数据集管理页面。
登录PAI控制台。
在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。
在左侧导航栏,选择 。
在数据集管理页面,单击创建数据集。
在创建数据集面板中,创建方式选择从阿里云云产品,并配置以下关键参数,其他参数参照控制台界面提示进行配置即可。
其中选择数据存储支持配置为阿里云对象存储(OSS)、阿里云文件存储(通用型NAS)、阿里云文件存储(极速型NAS)、阿里云文件存储(CPFS)和阿里云文件存储(智算CPFS),使用各个云产品创建数据集时的参数配置说明如下:
阿里云对象存储(OSS)
选择数据存储配置为阿里云对象存储(OSS)时,参数配置如下表所示。
参数
描述
属性
支持以下取值:
文件:选择一个具体的文件,用于iTAG的数据集建议选择为文件,创建好的数据集会对应该具体文件的路径。
文件夹:选取一个文件夹路径,用于DSW、DLC或EAS的数据集建议选择为文件夹,可被挂载在容器中。
可见范围
数据集的可见性,支持以下取值:
仅自己可见:在此工作空间中,仅对您和管理员可见。
工作空间内公开可见:在此工作空间中,对所有人可见。
数据集类型
创建数据的类型,支持以下取值:
图片
文本
音频
视频
通用
数据集类型是可选项,默认为通用类型。如果您选择了特定类型,则在后续的标注场景中,系统会帮您进行数据集筛选。
从阿里云云存储创建
单击
选择文件所在的OSS路径。在选择OSS目录对话框中,您可以选择已有的文件,也可以按照以下操作步骤上传本地文件。
说明如果当前地域没有可选的Bucket,您可以单击创建Bucket进行创建。
Bucket所属地域与机器学习PAI的地域一致。
Bucket一旦创建,则无法更改其所属地域。
在选择OSS目录对话框,单击上传文件。
单击查看本地文件或拖拽上传文件,根据提示上传本地文件。
默认挂载路径
数据的默认挂载路径,可用于DLC和DSW中:
在DSW中,创建实例时,可以将已创建的文件系统挂载在该路径。
在DLC中,运行代码时,系统会按照该存储目录寻找文件。例如
python /root/data/file.py
。
开启数据集加速
当属性选择文件夹时,支持开启数据集加速。同时,您需要配置相关参数,即可开启数据集加速功能。
其中:
所属实例:选择已创建的数据集加速实例。
加速槽名称:默认配置为数据集名称,您也可以自行配置。
最大容量:配置数据集加速槽容量。该容量需要大于等于数据集容量,您可以参考需要加速的具体数据集容量来配置。
加速挂载点:默认使用内部挂载点。当所属实例选择灵骏基础版时,需要新建挂载点。
说明使用灵骏智算资源场景时,加速挂载点:挂载点类型需选择VPC,且选择的VPC和交换机需要与灵骏智算资源一致。
加速数据集默认挂载路径:数据的默认挂载路径。
阿里云文件存储
选择数据存储配置为阿里云文件存储时,参数配置如下表所示。
说明目前在EAS产品中仅支持挂载通用型NAS类型的数据集。
参数
描述
可见范围
数据集的可见性,支持以下取值:
仅自己可见:在此工作空间中,仅对您和管理员可见。
工作空间内公开可见:在此工作空间中,对所有人可见。
数据集类型
创建数据的类型,支持以下取值:
图片
文本
音频
视频
通用
数据集类型是可选项,默认为通用类型。如果您选择了特定类型,则在后续的标注场景中,系统会帮您进行数据集筛选。
选择文件系统
您可以根据界面提示选择一个当前地域下的NAS文件系统,支持选择以下几种类型的文件系统:
说明EAS产品仅支持挂载通用型NAS类型的数据集。
仅支持在华北6(乌兰察布)地域创建智算CPFS类型的数据集。
DLC和DSW产品支持挂载已配置传输加密的NAS文件系统。
通用型NAS
极速型NAS
CPFS
智算CPFS
文件系统挂载点
通过挂载点来访问NAS文件系统。
文件系统路径
配置NAS中已有的存储路径。例如
/
。默认挂载路径
数据的默认挂载路径,可用于DLC和DSW中:
在DSW中,创建实例时,可以将已创建的文件系统挂载在该路径。
在DLC中,运行代码时,系统会按照该存储目录寻找文件。例如
python /root/data/file.py
。
开启数据集加速
仅选择文件系统配置为CPFS类型的文件系统时,支持开启数据集加速。同时,您需要配置相关参数,即可开启数据集加速功能。
其中:
所属实例:选择已创建的数据集加速实例。
加速槽名称:默认配置为数据集名称,您也可以自行配置。
最大容量:配置数据集加速槽容量。该容量需要大于等于数据集容量,您可以参考需要加速的具体数据集容量来配置。
加速挂载点:默认使用内部挂载点。当所属实例选择灵骏基础版时,需要新建挂载点。
说明使用灵骏智算资源场景时,加速挂载点:挂载点类型需选择VPC,且选择的VPC和交换机需要与灵骏智算资源一致。
加速数据集默认挂载路径:数据的默认挂载路径。
单击提交。
创建数据集:扫描文件夹创建数据集
选择一个当前地域下的OSS目录,系统会将该目录中的文件扫描生成.manifest索引文件,用于PAI数据标注等场景。具体操作步骤如下:
进入数据集管理页面。
登录PAI控制台。
在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。
在左侧导航栏,选择 。
在数据集管理页面,单击创建数据集。
在创建数据集面板配置如下参数。
参数
描述
创建方式
选择扫描文件夹创建数据集。
数据集名称
自定义数据集的名称。
可见范围
数据集的可见性,支持以下取值:
仅自己可见:在此工作空间中,仅对您和管理员可见。
工作空间内公开可见:在此工作空间中,对所有人可见。
数据集类型
创建数据的类型,支持以下取值:
图片
文本
音频
视频
通用
数据集类型是可选项,默认为通用类型。如果您选择了特定类型,则在后续的标注场景中,系统会帮您进行数据集筛选。
扫描文件夹路径
选择一个当前地域下的OSS目录,如果当前地域下没有可选的Bucket,您可以单击创建Bucket进行创建。
说明创建的Bucket所属地域与机器学习PAI的地域一致。
Bucket一旦创建,则无法更改其所属地域。
路径通配符
根据您的数据情况,配置合适的通配符:
如果扫描OSS目录下的所有文件,则配置路径通配符为
*
。如果扫描OSS目录下的所有JPG文件,则配置路径通配符为
*.jpg
。如果扫描OSS目录下的所有WAV文件,则配置路径通配符为
*/*.wav
。
说明OSS目录下支持扫描的文件数量最多为10万。
预览
单击开始扫描,系统会根据选择的OSS路径和通配符,索引相关联的文件并按照.manifest格式预览。
扫描结果文件保存路径
扫描后将得到一个dataset_xxx.manifest文件,您可以修改文件名称并选择该文件保存的OSS路径。
单击提交。
创建数据集:公共数据集
管理数据集
您可以进入数据集管理页面查看所有拥有权限的数据集列表,并对数据集进行查看详情、删除等操作。
您可以单击查看数据集直接跳转进入对应数据集所在的OSS存储路径,查看数据集详情,也可以单击删除,删掉废弃的数据集。
说明如果单击查看数据集跳转到OSS页面后,界面提示没有权限。您需要登录阿里云主账号为RAM用户授权 AliyunOSSFullAccess 操作权限,详情请参见步骤二:为RAM用户授权。
对于可见范围为仅自己可见的数据集,您也可以单击公开数据集,将数据集在工作空间内公开,让所有工作空间成员均可以查看该数据集。
重要一旦公开数据集后,该数据集后续不能再转为仅自己可见的数据集,请谨慎操作。
您可以对数据集设置标签,便于后续通过标签键和标签值来进行过滤查找数据集。
您可以单击右上角的设置图标,对当前展示的数据集信息项目进行调整。