在PAI平台使用数据集加速器

在机器学习PAI平台创建数据集时,支持开启数据集加速功能。您可以在创建DSW实例或提交训练任务时,直接使用已开启加速的数据集,提升数据读取效率。本文为您介绍如何在PAI平台使用数据集加速器。

前提条件

已创建数据集加速实例,具体操作,请参见创建及管理数据集加速实例

创建数据集并开启数据集加速

  1. 数据集管理页面创建数据集,并配置以下关键参数,具体操作,请参见创建及管理数据集

    其中:创建方式选择以下任意一种方式时,支持开启数据集加速。

    • 从阿里云存储

      • 选择数据存储配置为阿里云对象存储(OSS)属性文件夹时,支持开启数据集加速。

      • 选择数据存储配置为阿里云文件存储(NAS),且选择NAS文件系统配置为已创建的CPFS文件系统时,支持开启数据集加速。

    • 本地上传

      当属性为文件夹时,支持开启数据集加速。

    选中开启数据集加速,并配置相关参数,即可开启数据集加速功能。image

    其中:

    • 所属实例:选择已创建的数据集加速实例。

    • 加速槽名称:默认配置为数据集名称,您也可以自行配置。

    • 最大容量:配置数据集加速槽容量。该容量需要大于等于数据集容量,您可以参考需要加速的具体数据集容量来配置。

    其他参数配置,详情请参见创建及管理数据集

  2. 单击提交

    数据集创建成功后,在数据集列表中展示,开启加速功能的数据集如下图所示。image

使用数据集加速器

您可以在创建DSW实例或提交容器训练任务时使用数据集加速器。

阿里云首页 机器学习 相关技术圈