新增灵骏智算资源资源配额
阿里云PAI为您提供灵骏智算资源,可用于AI开发和训练,如果您希望进行高性能AI训练、高性能计算,可以新增资源配额并使用灵骏智算资源。本文为您介绍如何新增、管理以及使用资源配额。
前提条件
已创建灵骏智算资源专有资源组并购买了计算资源。具体操作,请参见新建资源组并购买灵骏智算资源。
新增资源配额
您可以根据自己的需求,通过新增资源配额来合理分配资源池中的资源。具体操作步骤如下:
登录并进入PAI控制台的AI计算资源 > 资源配额页面。
在灵骏智算资源页签中,单击新增资源配额。
在新增资源配额页面中,配置以下参数,完成后单击提交。
参数
描述
资源配额名称
根据界面提示设置资源配额的名称。
描述
对资源配额进行简单的描述,以区分不同的资源配额。
关联工作空间
选择所属的工作空间后,该资源配额将与该工作空间绑定。
资源来源
支持以下两种配置:
专有资源组:选择资源池中的资源组,将从该资源组中分配资源。
已有资源配额:从已有的资源配额中分配资源。
资源配额
单击
,从已有的资源配额或专有资源组中选择合适的资源规格和节点数量。
管理资源配额
资源配额创建完成后,您可以通过单击相应的资源配额名称,来查看详细信息、水位以及进行管理操作。您可以通过扩缩容来调整资源配额,还可以为资源配额新增子级资源配额,形成Quota Tree。具体操作,请参见管理资源配额。
使用资源配额
绑定工作空间
如果您在创建资源配额时已经绑定了工作空间,那么您可以直接使用资源配额。否则,您需要将资源配额绑定到指定的工作空间之后才能使用。具体操作,请参见管理资源配额。
使用已绑定工作空间的资源配额进行AI开发和训练。
镜像选择
使用PAI灵骏资源配额进行分布式训练(DLC)时,涉及服务器、网络、驱动、训练框架等软硬件的协同,因此建议您直接使用PAI官方镜像, 或基于PAI官方镜像构建镜像。
说明使用您自有的镜像时,可能需要额外进行驱动、框架、软件版本的适配,才能充分应用灵骏智算资源的高性能。
镜像名称
框架
机型
CUDA
操作系统
地区
开发语言&版本
deepspeed-training:23.06-gpu-py310-cu121-ubuntu22.04
PyTorch 2.1
Megatron-LM 23.06
DeepSpeed 0.9.5
Transformers 4.29.2
Nemo 1.19.0
GPU
121
ubuntu22.04
华北6(乌兰察布)
Python3.10
megatron-training:23.06-gpu-py310-cu121-ubuntu22.04
PyTorch 2.1
Megatron-LM 23.06
DeepSpeed 0.9.5
Transformers 4.29.2
Nemo 1.19.0
GPU
121
ubuntu22.04
华北6(乌兰察布)
Python3.10
nemo-training:23.06-gpu-py310-cu121-ubuntu22.04
PyTorch 2.1
Megatron-LM 23.06
DeepSpeed 0.9.5
Transformers 4.29.2
Nemo 1.19.0
GPU
121
ubuntu22.04
华北6(乌兰察布)
Python3.10
提交DLC训练任务选择灵骏资源配额。具体操作,请参见提交任务(通过控制台)。
基于灵骏智算资源在DSW中开发模型。您可以在创建DSW实例时选择灵骏资源配额,操作详情,请参见创建及管理DSW实例。