在使用数据集加速器(DatasetAccelerator)进行训练数据加速前,您需要创建数据集加速槽来绑定数据集的OSS存储地址并配置挂载点。本文为您介绍如何创建及管理数据集加速槽和挂载点。

前提条件

已创建数据集加速实例,具体操作,请参见创建及管理数据集加速实例

背景信息

您在创建数据集加速槽时,需要添加挂载点,通过挂载点将数据集加速器挂载到训练集群。在训练集群中进行模型训练时,训练任务可以通过挂载点来访问数据集加速槽,进而读取加速槽关联的数据集,提高了数据集访问效率。

创建数据集加速槽

  1. 登录PAI控制台
  2. 进入创建加速槽配置面板。
    您可以通过以下任意一种方式进入创建加速槽配置面板。
    • 方式一:按照下图操作指引,在加速槽页签创建加速槽。创建加速槽
    • 方式二:按照下图操作指引,在加速实例详情页面创建加速槽。
      说明 使用该方式创建加速槽时,所属实例为当前加速实例,不支持选择其他加速实例。
      创建加速槽
  3. 创建加速槽面板,配置参数,并单击提交
    其中关键参数说明如下。
    参数描述
    最大容量配置数据加速槽容量。您可以参考需要加速的具体数据集容量来配置。
    重要 加速槽容量需要大于等于数据集容量。
    云存储类型数据集的存储类型,支持以下两种类型:
    • OSS
    • CPFS
    选定OSS路径云存储类型选择OSS时,支持配置该参数。

    选择数据集在OSS Bucket中的存储目录。

    CPFS文件系统云存储类型选择CPFS时,支持配置该参数。

    选择已创建的CPFS文件系统。

    挂载点云存储类型选择OSS时,支持配置该参数。
    在使用数据集加速器时,通过挂载点将数据集加速器挂载到训练集群。您可以选择已有的VPC网络,也可以单击创建专有网络创建交换机来创建新的VPC网络。
    说明
    • 数据集加速器只支持专有网络类型的挂载点。
    • 一个专有网络类型挂载点,可以被同VPC下不同交换机下的训练集群使用。
    • 添加挂载点时,文件系统会占用一个IP地址,建议您选择内网IP较多的交换机。
    • 挂载点只支持被同一VPC网络的训练集群挂载。
    启动自动回收打开启动自动回收开关,您可以配置数据集加速槽的运行时间或停止时间,等到指定时间时,系统会自动停止数据集加速槽。
    创建完成后,加速槽将开始初始化加速槽实例,待状态变为运行中时,表示加速槽实例可以使用。

后续,您可以通过加速槽挂载点将数据集加速器挂载到训练集群,在训练集群中使用数据集加速器来高效访问数据集,详情请参见在自建的训练集群中使用数据集加速器

管理数据集加速槽

您可以在加速槽页签或加速实例详情页面管理数据集加速槽。管理数据集加速槽
  • 单击加速槽名称,进入加速槽详情页面,查看加速槽的基本信息
  • 将鼠标悬浮到②位置,查看加速槽数据集存储路径。
  • 您可以停止或删除不再使用的加速槽,或克隆一个新的加速槽。您也可以单击自动回收为加速槽配置运行时间或自动停止时间。

管理挂载点

您可以在创建数据集加速槽时添加挂载点。挂载点添加完成后,您可以按照下图操作指引,进入加速槽详情页面来管理挂载点。管理挂载点
  • 将鼠标悬浮在④位置,来查看挂载点的配置信息。
  • 单击④位置的挂载点,会展示安装数据集加速客户端的部署配置。您可以在部署配置面板,单击下载按钮,下载数据集加速器客户端的YAML文件,后续在训练集群中配置数据集加速器时使用。部署配置