高质量的数据集是高精度模型的基础,是数据准备的核心目标。阿里云PAI提供数据集管理模块,支持将各类数据(本地数据、阿里云存储中的数据等)注册为数据集,也支持扫描OSS文件夹生成索引数据集,为智能标注、模型训练做准备。本文介绍如何创建数据集和管理数据集。
背景信息
数据集管理模块提供多种创建数据集方式,您可以结合数据来源及应用场景选择合适的方式:
- 创建数据集:从阿里云云产品
您可以将阿里云对象存储OSS或阿里云文件存储NAS中的数据注册为PAI的数据集,用于后续的数据处理及建模。
- 创建数据集:扫描文件夹创建数据集
PAI支持扫描OSS目录中的文件,自动生成.manifest索引文件,并将索引文件创建为数据集,此场景主要用于智能标注(iTAG)场景。
- 创建数据集:公共数据集
PAI的公共数据集来自官方的开源数据集,存在阿里云的公共读取存储中。您可以直接注册这些PAI的公开数据集,并且无需在自己的数据存储中创建副本。该注册数据集可以用于后续的数据处理及建模。
前提条件
已创建工作空间,注册的数据集均与该工作空间绑定。关于如何创建工作空间,请参见创建工作空间。
创建数据集:从阿里云云产品
- 进入数据集管理页面。
- 登录PAI控制台。
- 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。
- 在左侧导航栏,选择 。
- 在数据集管理页面,单击创建数据集。
- 在创建数据集面板配置如下参数。
参数 描述 创建方式 选择从阿里云云产品。 数据集名称 数据集的名称,命名规则如下: - 以小写字母、大写字母、数字或中文开头。
- 可以包含下划线(_)或短划线(-)。
- 长度为1~127个字符。
描述 对数据集进行自定义描述,以区分不同的数据集。 可见范围 数据集的可见性,支持以下取值: - 仅自己可见:在此工作空间中,仅对您和管理员可见。
- 工作空间内公开可见:在此工作空间中,对所有人可见。
数据集类型 注册数据的类型,支持以下取值: - 图片
- 文本
- 音频
- 视频
- 通用
选择数据存储 数据集存储的类型,支持以下取值: - 阿里云对象存储(OSS)
- 阿里云文件存储(NAS)
属性 当选择数据存储为阿里云对象存储(OSS)时,支持设置该参数。 支持以下取值:- 文件:选择一个具体的文件,用于智能标注(iTAG)的数据集建议选择为文件,注册好的数据集会对应该具体文件的路径。
- 文件夹:选取一个文件夹路径,用于DSW、DLC的数据集建议选择为文件夹,可被挂载在容器中。
从阿里云云存储创建 当选择数据存储为阿里云对象存储(OSS)时,才需要配置该参数。 单击选择文件所在的OSS路径。在选择OSS文件对话框,您可以选择已有的文件,也可以按照以下操作步骤上传本地文件。
说明 如果当前地域没有可选的Bucket,您可以单击创建Bucket进行创建。- Bucket所属地域与机器学习PAI的地域一致。
- Bucket一旦创建,则无法更改其所属地域。
- 在选择OSS文件对话框,单击上传文件。
- 单击查看本地文件或拖拽上传文件,根据提示上传本地文件。
选择NAS文件系统 当选择数据存储为阿里云文件存储(NAS)时,才需要配置该参数。 您可以根据界面提示选择一个当前地域下的NAS文件系统。
NAS路径 当选择数据存储为阿里云文件存储(NAS)时,才需要配置该参数。 配置数据集在NAS中的存储路径。
默认挂载路径 数据的默认挂载路径,可用于PAI-DLC和PAI-DSW中:- 在PAI-DSW中,创建实例时,可以将已创建的文件系统挂载在该路径。
- 在PAI-DLC中,运行代码时,系统会按照该存储目录寻找文件。例如
python /root/data/file.py
。
- 单击提交。
创建数据集:扫描文件夹创建数据集
- 进入数据集管理页面。
- 登录PAI控制台。
- 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。
- 在左侧导航栏,选择 。
- 在数据集管理页面,单击创建数据集。
- 在创建数据集面板配置如下参数。
参数 描述 创建方式 选择扫描文件夹创建数据集。 数据集名称 数据集的名称,命名规则如下: - 以小写字母、大写字母、数字或中文开头。
- 可以包含下划线(_)或短划线(-)。
- 长度为1~127个字符。
描述 对数据集进行自定义描述,以区分不同的数据集。 可见范围 数据集的可见性,支持以下取值: - 仅自己可见:在此工作空间中,仅对您和管理员可见。
- 工作空间内公开可见:在此工作空间中,对所有人可见。
数据集类型 注册数据的类型,支持以下取值: - 图片
- 文本
- 音频
- 视频
- 通用
扫描文件夹路径 选择一个当前地域下的OSS目录,系统会将该目录中的文件扫描生成.manifest索引文件,用于PAI数据标注等场景。 如果当前地域下没有可选的Bucket,您可以单击创建Bucket进行创建。说明- 创建的Bucket所属地域与机器学习PAI的地域一致。
- Bucket一旦创建,则无法更改其所属地域。
路径通配符 根据您的数据情况,配置合适的通配符: - 如果扫描OSS目录下的所有文件,则配置路径通配符为
*
。 - 如果扫描OSS目录下的所有JPG文件,则配置路径通配符为
*.jpg
。 - 如果扫描OSS目录下的所有WAV文件,则配置路径通配符为
*/*.wav
。
说明 OSS目录下支持扫描的文件数量最多为10万。预览 单击开始扫描,系统会根据选择的OSS路径和通配符,索引相关联的文件并按照.manifest格式预览。 扫描结果文件保存路径 扫描后将得到一个dataset_xxx.manifest文件,您可以修改文件名称并选择该文件保存的OSS路径。 - 单击提交。
创建数据集:公共数据集
管理数据集
您可以进入数据集管理页面查看所有拥有权限的数据集列表,并对数据集进行查看详情、删除等操作。

- 您可以单击查看数据集直接跳转进入对应数据集所在的OSS存储路径,查看数据集详情,也可以单击删除,删掉废弃的数据集。
- 对于可见范围为仅自己可见的数据集,您也可以单击公开数据集,将数据集在工作空间内公开,让所有工作空间成员均可以查看该数据集。重要 一旦公开数据集后,该数据集后续不能再转为仅自己可见的数据集,请谨慎操作。
- 您可以对数据集设置标签,便于后续通过标签键和标签值来进行过滤查找数据集。
- 您可以单击右上角的设置图标,对当前展示的数据集信息项目进行调整。