在PAI平台使用数据集加速器
在机器学习PAI平台创建数据集时,支持开启数据集加速功能。您可以在创建DSW实例或提交训练任务时,直接使用已开启加速的数据集,提升数据读取效率。本文为您介绍如何在PAI平台使用数据集加速器。
前提条件
已创建数据集加速实例,具体操作,请参见创建及管理数据集加速实例。
创建数据集并开启数据集加速
在数据集管理页面创建数据集,并配置以下关键参数,具体操作,请参见创建及管理数据集。
其中:创建方式选择以下任意一种方式时,支持开启数据集加速。
从阿里云存储
当选择数据存储配置为阿里云对象存储(OSS)且属性为文件夹时,支持开启数据集加速。
当选择数据存储配置为阿里云文件存储(NAS),且选择NAS文件系统配置为已创建的CPFS文件系统时,支持开启数据集加速。
本地上传
当属性为文件夹时,支持开启数据集加速。
选中开启数据集加速,并配置相关参数,即可开启数据集加速功能。
其中:
所属实例:选择已创建的数据集加速实例。
加速槽名称:默认配置为数据集名称,您也可以自行配置。
最大容量:配置数据集加速槽容量。该容量需要大于等于数据集容量,您可以参考需要加速的具体数据集容量来配置。
其他参数配置,详情请参见创建及管理数据集。
单击提交。
数据集创建成功后,在数据集列表中展示,开启加速功能的数据集如下图所示。
使用数据集加速器
您可以在创建DSW实例或提交容器训练任务时使用数据集加速器。
创建DSW实例时,数据集参数选择开启加速功能的数据集即可,详情请参见创建及管理DSW实例。
提交容器训练任务时,数据集配置参数选择开启加速功能的数据集即可,详情请参见提交任务(通过控制台)。