灵骏智算资源配额

阿里云PAI为您提供灵骏智算资源,可用于AI开发和训练,如果您希望进行高性能AI训练、高性能计算,可以通过配置资源配额来使用灵骏智算资源。本文为您介绍如何新增、管理以及使用资源配额。

前提条件

新增资源配额

通过新增资源配额来合理分配资源池中的资源。具体操作步骤如下:

  1. 登录并进入PAI控制台的AI计算资源 > 资源配额页面。

  2. 灵骏智算资源页签中,单击新增资源配额

  3. 新增资源配额页面中,配置以下参数,完成后单击提交

    参数

    描述

    名称

    根据界面提示设置资源配额的名称。

    调度策略

    选择合适的调度策略,提高算力资源的利用率,取值如下:

    • 智能策略

    • 均衡策略

    • 遍历策略

    • FIFO策略

    关于各个调度策略的原理介绍,请参见调度策略

    关联工作空间

    选择所属的工作空间后,该资源配额将与该工作空间绑定。

    描述

    对资源配额进行简单的描述,以区分不同的资源配额。

    来源类型

    支持以下两种配置:

    • 专有资源组:选择资源池中的资源组,将从该资源组中分配资源。

    • 已有资源配额:从已有的资源配额中分配资源。

    来源

    选择已创建的专有资源组或资源配额。

    规格/资源

    单击添加,从已有的资源配额或专有资源组中选择合适的资源规格和节点数量。

    专有网络

    在下拉框中选择已创建好的VPC、交换机和安全组。

    说明

    后续如果您有访问公网的需求,还需对此处绑定的VPC进行公网NAT网关的配置并绑定EIP,因此建议选择的VPC为您后续用于访问公网的VPC。配置公网NAT网关的SNAT功能操作详情可参见使用公网NAT网关SNAT功能访问互联网

    安全组

    交换机

管理资源配额

创建资源配额后,您可以单击资源配额名称,来查看详情、水位并进行管理操作。还可以通过扩缩容、新增子级资源配额来优化资源配置。具体操作,请参见管理资源配额

使用资源配额

  • 绑定工作空间

    只有将资源配额绑定到指定的工作空间后,才能使用其进行AI开发、训练任务和服务部署。具体操作,请参见资源配额(Quota)功能介绍

  • 使用已绑定工作空间的资源配额进行AI开发、训练和服务部署。

    • 镜像选择

      使用PAI灵骏资源配额进行分布式训练(DLC)时,涉及服务器、网络、驱动、训练框架等软硬件的协同,因此建议您直接使用PAI官方镜像, 或基于PAI官方镜像构建镜像。

      说明

      使用您自有的镜像时,可能需要额外进行驱动、框架、软件版本的适配,才能充分应用灵骏智算资源的高性能。

      镜像名称

      框架

      机型

      CUDA

      操作系统

      地区

      开发语言&版本

      deepspeed-training:23.06-gpu-py310-cu121-ubuntu22.04

      • PyTorch 2.1

      • Megatron-LM 23.06

      • DeepSpeed 0.9.5

      • Transformers 4.29.2

      • Nemo 1.19.0

      GPU

      121

      ubuntu22.04

      华北6(乌兰察布)

      Python3.10

      megatron-training:23.06-gpu-py310-cu121-ubuntu22.04

      • PyTorch 2.1

      • Megatron-LM 23.06

      • DeepSpeed 0.9.5

      • Transformers 4.29.2

      • Nemo 1.19.0

      GPU

      121

      ubuntu22.04

      华北6(乌兰察布)

      Python3.10

      nemo-training:23.06-gpu-py310-cu121-ubuntu22.04

      • PyTorch 2.1

      • Megatron-LM 23.06

      • DeepSpeed 0.9.5

      • Transformers 4.29.2

      • Nemo 1.19.0

      GPU

      121

      ubuntu22.04

      华北6(乌兰察布)

      Python3.10

    • 提交DLC训练任务选择灵骏资源配额。具体操作,请参见创建训练任务

    • 基于灵骏智算资源在DSW中开发模型。具体操作,请参见创建及管理DSW实例

    • 部署EAS服务。具体操作,请参见服务部署:控制台