文档

创建及管理数据集加速槽

更新时间:

在使用数据集加速器(DatasetAccelerator)进行训练数据加速前,您需要创建数据集加速槽来绑定数据源的存储地址。系统会根据数据源类型、数据大小、训练的框架以及模型等因素,对关联的数据集数据进行预处理,以提高对数据集数据的访问速度。本文为您介绍如何创建和管理数据集加速槽。

前提条件

已创建数据集加速实例,具体操作,请参见创建及管理数据集加速实例

创建数据集加速槽

  1. 登录PAI控制台

  2. 进入创建加速槽配置面板。

    您可以通过以下任意一种方式进入创建加速槽配置面板。

    • 方式一:在加速槽页签创建加速槽。

      1. 在左侧导航栏,单击AI加速 > 数据集加速器

      2. 加速槽页签中,单击创建加速槽

    • 方式二:在加速实例详情页面创建加速槽。

      说明

      使用该方式创建加速槽时,所属实例为当前加速实例,不支持选择其他加速实例。

      1. 在左侧导航栏,单击AI加速 > 数据集加速器

      2. 加速实例页签中,单击目标实例名称,进入加速实例详情页面。

      3. 数据集加速槽页签中,单击创建加速槽

  3. 创建加速槽面板,配置参数,并单击提交

    其中关键参数说明如下。

    参数

    描述

    所属实例

    选择已创建的加速实例。

    绑定云产品

    支持将数据集加速槽绑定到与加速实例配置的数据源类型一致的云产品上。

    最大容量

    配置数据加速槽容量。您可以参考需要加速的具体数据集容量来配置。

    重要

    加速槽容量需要大于等于数据集容量。

    选定OSS路径

    绑定云产品选择阿里云对象存储OSS时,支持配置该参数。

    选择数据集在OSS Bucket中的存储目录。

    CPFS文件系统

    绑定云产品选择阿里云文件存储CPFS时,支持配置该参数。

    选择已创建的CPFS文件系统。

    挂载点

    绑定云产品选择阿里云对象存储OSS时,支持配置该参数。

    在使用数据集加速器时,通过挂载点将数据集加速器挂载到训练集群。在训练集群中进行模型训练时,训练任务可以通过挂载点来访问数据集加速槽,进而读取加速槽关联的数据集,提高了数据集访问效率。

    您可以选择已有的VPC网络,也可以单击创建专有网络创建交换机来创建新的VPC网络。

    说明
    • 数据集加速器只支持专有网络类型的挂载点。

    • 一个专有网络类型挂载点,可以被同VPC下不同交换机下的训练集群使用。

    • 添加挂载点时,文件系统会占用一个IP地址,建议您选择内网IP较多的交换机。

    • 挂载点只支持被同一VPC网络的训练集群挂载。

    • 使用灵骏智算资源场景时,挂载点类型需选择VPC,且选择的VPC和交换机需要与灵骏智算资源一致。

    启动自动回收

    打开启动自动回收开关,您可以配置数据集加速槽的运行时间或停止时间,等到指定时间时,系统会自动停止数据集加速槽。

    创建完成后,加速槽将开始初始化加速槽实例,待状态变为运行中时,表示加速槽实例可以使用。

管理数据集加速槽

您可以在加速槽页签或加速实例详情页面管理数据集加速槽。ee77525bbe26d9c23c52cc5fd1bd9d0c.png

  • 单击加速槽名称,进入加速槽详情页面,查看加速槽的基本信息

  • 将鼠标悬浮到②位置,查看加速槽数据集存储类型。

  • 您可以停止或删除不再使用的加速槽,或克隆一个新的加速槽。您也可以单击自动回收为加速槽配置运行时间或自动停止时间。

管理挂载点

您可以在创建数据集加速槽时添加挂载点。挂载点添加完成后,您可以单击加速槽名称,进入加速槽详情页面来管理挂载点。image.png

  • 将鼠标悬浮在挂载点名称上,来查看挂载点的配置信息。

  • 单击挂载点名称,会展示安装数据集加速客户端的部署配置。您可以在部署配置面板,单击下载按钮,下载数据集加速器客户端的YAML文件,后续在训练集群中配置数据集加速器时使用。image

后续步骤

数据集加速槽创建成功后,在创建DSW实例或提交容器训练任务时,您可以利用数据集加速器来加快数据集的访问速度。详情请参见在PAI平台使用数据集加速器

  • 本页导读 (1)
文档反馈