新增灵骏智算资源资源配额

更新时间: 2023-11-17 16:56:40

阿里云PAI为您提供灵骏智算资源,可用于AI开发和训练,如果您希望进行高性能AI训练、高性能计算,可以新增资源配额并使用灵骏智算资源。本文为您介绍如何新增、管理以及使用资源配额。

前提条件

已创建灵骏智算资源专有资源组并购买了计算资源。具体操作,请参见新建资源组并购买灵骏智算资源

新增资源配额

您可以根据自己的需求,通过新增资源配额来合理分配资源池中的资源。具体操作步骤如下:

  1. 登录并进入PAI控制台的AI计算资源 > 资源配额页面。

  2. 灵骏智算资源页签中,单击新增资源配额

  3. 新增资源配额页面中,配置以下参数,完成后单击提交

    参数

    描述

    资源配额名称

    根据界面提示设置资源配额的名称。

    描述

    对资源配额进行简单的描述,以区分不同的资源配额。

    关联工作空间

    选择所属的工作空间后,该资源配额将与该工作空间绑定。

    资源来源

    支持以下两种配置:

    • 专有资源组:选择资源池中的资源组,将从该资源组中分配资源。

    • 已有资源配额:从已有的资源配额中分配资源。

    资源配额

    单击image.png,从已有的资源配额或专有资源组中选择合适的资源规格和节点数量。

管理资源配额

资源配额创建完成后,您可以通过单击相应的资源配额名称,来查看详细信息、水位以及进行管理操作。您可以通过扩缩容来调整资源配额,还可以为资源配额新增子级资源配额,形成Quota Tree。具体操作,请参见管理资源配额

使用资源配额

  • 绑定工作空间

    如果您在创建资源配额时已经绑定了工作空间,那么您可以直接使用资源配额。否则,您需要将资源配额绑定到指定的工作空间之后才能使用。具体操作,请参见管理资源配额

  • 使用已绑定工作空间的资源配额进行AI开发和训练。

    • 镜像选择

      使用PAI灵骏资源配额进行分布式训练(DLC)时,涉及服务器、网络、驱动、训练框架等软硬件的协同,因此建议您直接使用PAI官方镜像, 或基于PAI官方镜像构建镜像。

      说明

      使用您自有的镜像时,可能需要额外进行驱动、框架、软件版本的适配,才能充分应用灵骏智算资源的高性能。

      镜像名称

      框架

      机型

      CUDA

      操作系统

      地区

      开发语言&版本

      deepspeed-training:23.06-gpu-py310-cu121-ubuntu22.04

      • PyTorch 2.1

      • Megatron-LM 23.06

      • DeepSpeed 0.9.5

      • Transformers 4.29.2

      • Nemo 1.19.0

      GPU

      121

      ubuntu22.04

      华北6(乌兰察布)

      Python3.10

      megatron-training:23.06-gpu-py310-cu121-ubuntu22.04

      • PyTorch 2.1

      • Megatron-LM 23.06

      • DeepSpeed 0.9.5

      • Transformers 4.29.2

      • Nemo 1.19.0

      GPU

      121

      ubuntu22.04

      华北6(乌兰察布)

      Python3.10

      nemo-training:23.06-gpu-py310-cu121-ubuntu22.04

      • PyTorch 2.1

      • Megatron-LM 23.06

      • DeepSpeed 0.9.5

      • Transformers 4.29.2

      • Nemo 1.19.0

      GPU

      121

      ubuntu22.04

      华北6(乌兰察布)

      Python3.10

    • 提交DLC训练任务选择灵骏资源配额。具体操作,请参见提交任务(通过控制台)

    • 基于灵骏智算资源在DSW中开发模型。您可以在创建DSW实例时选择灵骏资源配额,操作详情,请参见创建及管理DSW实例

阿里云首页 人工智能平台 PAI 相关技术圈