在使用数据集加速器(DatasetAccelerator)进行训练数据加速前,您需要创建数据集加速槽来绑定数据集的OSS存储地址并配置挂载点。本文为您介绍如何创建及管理数据集加速槽和挂载点。
前提条件
已创建数据集加速实例,具体操作,请参见创建及管理数据集加速实例。
背景信息
您在创建数据集加速槽时,需要添加挂载点,通过挂载点将数据集加速器挂载到训练集群。在训练集群中进行模型训练时,训练任务可以通过挂载点来访问数据集加速槽,进而读取加速槽关联的数据集,提高了数据集访问效率。
创建数据集加速槽
- 登录PAI控制台。
- 进入创建加速槽配置面板。您可以通过以下任意一种方式进入创建加速槽配置面板。
- 方式一:按照下图操作指引,在加速槽页签创建加速槽。
- 方式二:按照下图操作指引,在加速实例详情页面创建加速槽。说明 使用该方式创建加速槽时,所属实例为当前加速实例,不支持选择其他加速实例。
- 方式一:按照下图操作指引,在加速槽页签创建加速槽。
- 在创建加速槽面板,配置参数,并单击提交。其中关键参数说明如下。
参数 描述 最大容量 配置数据加速槽容量。您可以参考需要加速的具体数据集容量来配置。 重要 加速槽容量需要大于等于数据集容量。云存储类型 数据集的存储类型,支持以下两种类型: - OSS
- CPFS
选定OSS路径 仅云存储类型选择OSS时,支持配置该参数。 选择数据集在OSS Bucket中的存储目录。
CPFS文件系统 仅云存储类型选择CPFS时,支持配置该参数。 选择已创建的CPFS文件系统。
挂载点 仅云存储类型选择OSS时,支持配置该参数。 在使用数据集加速器时,通过挂载点将数据集加速器挂载到训练集群。您可以选择已有的VPC网络,也可以单击创建专有网络和创建交换机来创建新的VPC网络。说明- 数据集加速器只支持专有网络类型的挂载点。
- 一个专有网络类型挂载点,可以被同VPC下不同交换机下的训练集群使用。
- 添加挂载点时,文件系统会占用一个IP地址,建议您选择内网IP较多的交换机。
- 挂载点只支持被同一VPC网络的训练集群挂载。
启动自动回收 打开启动自动回收开关,您可以配置数据集加速槽的运行时间或停止时间,等到指定时间时,系统会自动停止数据集加速槽。 创建完成后,加速槽将开始初始化加速槽实例,待状态变为运行中时,表示加速槽实例可以使用。
后续,您可以通过加速槽挂载点将数据集加速器挂载到训练集群,在训练集群中使用数据集加速器来高效访问数据集,详情请参见在自建的训练集群中使用数据集加速器。
管理数据集加速槽
您可以在加速槽页签或加速实例详情页面管理数据集加速槽。

- 单击加速槽名称,进入加速槽详情页面,查看加速槽的基本信息。
- 将鼠标悬浮到②位置,查看加速槽数据集存储路径。
- 您可以停止或删除不再使用的加速槽,或克隆一个新的加速槽。您也可以单击自动回收为加速槽配置运行时间或自动停止时间。
管理挂载点
您可以在创建数据集加速槽时添加挂载点。挂载点添加完成后,您可以按照下图操作指引,进入加速槽详情页面来管理挂载点。

- 将鼠标悬浮在④位置,来查看挂载点的配置信息。
- 单击④位置的挂载点,会展示安装数据集加速客户端的部署配置。您可以在部署配置面板,单击下载按钮,下载数据集加速器客户端的YAML文件,后续在训练集群中配置数据集加速器时使用。