创建及管理数据集加速槽

在使用数据集加速器(DatasetAccelerator)进行训练数据加速前,您需要创建数据集加速槽来绑定数据源的存储地址。系统会根据数据源类型、数据大小、训练的框架以及模型等因素,对关联的数据集数据进行预处理,以提高对数据集数据的访问速度。本文为您介绍如何创建和管理数据集加速槽。

前提条件

已创建数据集加速实例,具体操作,请参见创建及管理数据集加速实例

创建数据集加速槽

  1. 登录PAI控制台

  2. 进入创建加速槽配置面板。

    您可以通过以下任意一种方式进入创建加速槽配置面板。

    • 方式一:在加速槽页签中创建加速槽。

      1. 在左侧导航栏,单击AI加速 > 数据集加速器

      2. 加速槽页签中,单击创建加速槽

    • 方式二:在加速实例详情页面创建加速槽。

      说明

      使用该方式创建加速槽时,所属实例为当前加速实例,不支持选择其他加速实例。

      1. 在左侧导航栏,单击AI加速 > 数据集加速器

      2. 加速实例页签中,单击目标实例名称,进入加速实例详情页面。

      3. 数据集加速槽页签中,单击创建加速槽

  3. 创建加速槽配置面板,配置以下关键参数。

    参数

    描述

    所属实例

    选择已创建的加速实例。

    绑定云产品

    支持将数据集加速槽绑定到与加速实例配置的数据源类型一致的云产品上。取值如下:

    阿里云对象存储OSS

    • 读写属性:设置OSS的读写权限。支持只读可读写

    • 选定OSS路径:选择数据集在OSS中的存储目录。

    云原生大数据计算服务MaxCompute

    • MaxCompute项目名:选择已创建的MaxCompute项目。

    • MaxCompute表名:选择已创建的MaxCompute表名称。

    阿里云文件存储(通用型NAS)&阿里云文件存储(极速型NAS)&阿里云文件存储CPFS

    • 选择文件系统:选择已创建的文件系统的ID。

    • 文件系统挂载点:选择挂载点,通过挂载点访问文件系统。

    • 文件系统路径:选择NAS中已有的存储路径。默认为/

    最大容量

    绑定云产品选择除云原生大数据计算服务MaxCompute外的其他类型时,支持配置该参数。

    配置数据集加速槽容量。您可以参考需要加速的具体数据集容量来配置。

    重要

    加速槽容量需要大于等于数据集容量。

    所属加速实例可用空间

    绑定云产品选择云原生大数据计算服务MaxCompute时支持配置该参数。

    系统将基于您选定的MaxCompute表自动加载分区信息。您也可以手动调整以选择特定分区进行加速。

    系统默认为每个加速槽分配500 GiB的存储空间,超出部分,系统将依据分区表的大小自动进行存储空间的分配。

    挂载点

    绑定云产品选择阿里云对象存储OSS云原生大数据计算服务MaxCompute时,支持配置该参数。

    在使用数据集加速器时,通过挂载点将数据集加速器挂载到训练集群。在训练集群中进行模型训练时,训练任务可以通过挂载点来访问数据集加速槽,进而读取加速槽关联的数据集,提高了数据集访问效率。

    支持以下两种配置方法:

    • 选择挂载点:选择已有的挂载点。

    • 新建挂载点:配置以下参数,创建新的挂载点。

      • 挂载点类型:仅支持VPC。

      • VPC网络:选择已创建的专有网络。如果没有可用的专有网络,您也可以单击创建专有网络进行创建。

      • 交换机:选择已创建的交换机。如果没有可用的交换机,您也可以单击创建交换机进行创建。

    说明
    • 数据集加速器只支持专有网络类型的挂载点。

    • 一个专有网络类型挂载点,可以被同VPC下不同交换机下的训练集群使用。

    • 添加挂载点时,文件系统会占用一个IP地址,建议您选择内网IP较多的交换机。

    • 挂载点只支持被同一VPC网络的训练集群挂载。

    启动自动回收

    打开启动自动回收开关,您可以配置数据集加速槽的运行时间或停止时间,等到指定时间时,系统会自动停止数据集加速槽。

  4. 单击提交

    创建完成后,系统将初始化加速槽实例,待状态变为运行中时,表示加速槽实例可以使用。

管理数据集加速槽

您可以在加速槽页签或加速实例详情页面管理数据集加速槽。image

  • 单击加速槽名称,进入加速槽详情页面,查看加速槽的基本信息

  • 将鼠标悬浮到②位置,查看加速槽数据集存储类型。

  • 您可以停止或删除不再使用的加速槽,或克隆一个新的加速槽。您也可以单击自动回收为加速槽配置运行时间或自动停止时间。

管理挂载点

您可以单击加速槽名称进入加速槽详情页面,在该页面管理挂载点。image.png

  • 将鼠标悬浮在挂载点名称上,来查看挂载点的配置信息。

  • 单击挂载点名称,会展示安装数据集加速器客户端的部署配置。您可以在部署配置面板,单击下载按钮,下载数据集加速器客户端的YAML文件,后续在训练集群中配置数据集加速器时使用。image

后续步骤

您可以启用数据集的加速功能,以便在创建DSW实例或提交DLC任务时使用,从而加快对数据集的访问速度。详情请参见PAI平台使用数据集加速器