阿里云PAI为您提供灵骏智算资源,可用于AI开发和训练,如果您希望进行高性能AI训练、高性能计算,可以通过配置资源配额来使用灵骏智算资源。本文为您介绍如何新增、管理以及使用资源配额。
前提条件
已创建灵骏智算资源专有资源组并购买了计算资源。具体操作,请参见新建资源组并购买灵骏智算资源。
新增资源配额
通过新增资源配额来合理分配资源池中的资源。具体操作步骤如下:
登录并进入PAI控制台的AI计算资源 > 资源配额页面。
在灵骏智算资源页签中,单击新增资源配额。
在新增资源配额页面中,配置以下参数,完成后单击提交。
参数
描述
名称
根据界面提示设置资源配额的名称。
调度策略
选择合适的调度策略,提高算力资源的利用率,取值如下:
智能策略
均衡策略
遍历策略
FIFO策略
关于各个调度策略的原理介绍,请参见调度策略。
关联工作空间
选择所属的工作空间后,该资源配额将与该工作空间绑定。
描述
对资源配额进行简单的描述,以区分不同的资源配额。
来源类型
支持以下两种配置:
专有资源组:选择资源池中的资源组,将从该资源组中分配资源。
已有资源配额:从已有的资源配额中分配资源。
来源
选择已创建的专有资源组或资源配额。
规格/资源
单击添加,从已有的资源配额或专有资源组中选择合适的资源规格和节点数量。
专有网络
在下拉框中选择已创建好的VPC、交换机和安全组。
说明后续如果您有访问公网的需求,还需对此处绑定的VPC进行公网NAT网关的配置并绑定EIP,因此建议选择的VPC为您后续用于访问公网的VPC。配置公网NAT网关的SNAT功能操作详情可参见使用公网NAT网关SNAT功能访问互联网。
安全组
交换机
管理资源配额
创建资源配额后,您可以单击资源配额名称,来查看详情、水位并进行管理操作。还可以通过扩缩容、新增子级资源配额来优化资源配置。具体操作,请参见管理资源配额。
使用资源配额
绑定工作空间
只有将资源配额绑定到指定的工作空间后,才能使用其进行AI开发、训练任务和服务部署。具体操作,请参见资源配额(Quota)功能介绍。
使用已绑定工作空间的资源配额进行AI开发、训练和服务部署。
镜像选择
使用PAI灵骏资源配额进行分布式训练(DLC)时,涉及服务器、网络、驱动、训练框架等软硬件的协同,因此建议您直接使用PAI官方镜像, 或基于PAI官方镜像构建镜像。
说明使用您自有的镜像时,可能需要额外进行驱动、框架、软件版本的适配,才能充分应用灵骏智算资源的高性能。
镜像名称
框架
机型
CUDA
操作系统
地区
开发语言&版本
deepspeed-training:23.06-gpu-py310-cu121-ubuntu22.04
PyTorch 2.1
Megatron-LM 23.06
DeepSpeed 0.9.5
Transformers 4.29.2
Nemo 1.19.0
GPU
121
ubuntu22.04
华北6(乌兰察布)
Python3.10
megatron-training:23.06-gpu-py310-cu121-ubuntu22.04
PyTorch 2.1
Megatron-LM 23.06
DeepSpeed 0.9.5
Transformers 4.29.2
Nemo 1.19.0
GPU
121
ubuntu22.04
华北6(乌兰察布)
Python3.10
nemo-training:23.06-gpu-py310-cu121-ubuntu22.04
PyTorch 2.1
Megatron-LM 23.06
DeepSpeed 0.9.5
Transformers 4.29.2
Nemo 1.19.0
GPU
121
ubuntu22.04
华北6(乌兰察布)
Python3.10
提交DLC训练任务选择灵骏资源配额。具体操作,请参见创建训练任务。
基于灵骏智算资源在DSW中开发模型。具体操作,请参见创建及管理DSW实例。
部署EAS服务。具体操作,请参见服务部署:控制台。