新建资源组并购买灵骏智算资源
灵骏智算资源是阿里云PAI为您提供的大规模高密度计算资源服务,为您提供高性能AI训练、高性能计算所需的异构计算算力服务,可用于DSW和DLC完成AI开发和训练的工作。本文为您介绍如何新建资源组并购买灵骏智算资源。
功能简介
资源类型
灵骏智算类型的资源,是阿里云自主研发的新一代智能计算资源,提供:
RDMA高速网络架构
高性能通信库
高性能加速软件
GPU虚拟化的技术方案
可以更好的满足高性能算力需求。
资源组类型
阿里云PAI为您提供全托管的灵骏智算资源,您可在PAI产品控制台便捷的完成购买、使用的全流程,如果您已购买单独的灵骏硬件资源,也可将此类资源作为半托管的资源添加至PAI产品控制台,用于后续的训练任务使用。
使用限制
支持使用的地域
当前仅支持华北6(乌兰察布)地域。
支持使用的用户
当前灵骏智算资源仅供白名单用户受限申请使用,如果您希望使用灵骏智算资源提交训练任务,您可先提交工单,申请添加灵骏智算使用白名单。
支持的任务类型
当前灵骏智算资源仅支持Tensorflow、PyTorch、ElasticBatch和MPIJob类型的训练任务。
操作账号和权限要求
阿里云主账号(推荐):使用该账号可完成所有操作,无需额外授权。
RAM用户:需要为该RAM用户授予
AliyunPAIFullAccess
权限,详情请参见附录:AliyunPAIFullAccess。此时RAM用户会拥有PAI全部权限,有操作风险,请谨慎添加。
依赖的云产品
灵骏智算资源在创建、购买及后续使用的过程中,依赖以下其他云产品,您在购买使用前需先了解依赖的云产品,并根据实际需要提前准备好对应的云产品。
(必选)VPC
购买灵骏智算平台时,您需绑定一个同地域的VPC,并配置交换机与安全组信息,保障灵骏智算资源组与各云产品的网络是连通状态。
(按需)公网NAT网关与EIP
如果后续您需要访问公网环境,例如使用公网环境下的自定义镜像等场景,您还需开通并配置公网NAT网关的SNAT功能,绑定EIP,实现灵骏智算资源访问公网的能力。
配置公网NAT网关的SNAT功能操作详情可参见使用公网NAT网关SNAT功能访问互联网。
(按需)OSS/NAS/智算CPFS
您后续使用灵骏智算资源提交DLC任务时,需先创建数据集,当前支持使用OSS、NAS、智算CPFS类型的数据集,因此您需根据数据集的应用需要提前准备好OSS或NAS或智算CPFS资源,并创建好对应的数据集。详情请参见准备工作:准备数据集。
新建资源组并购买灵骏智算资源
新建灵骏资源组
登录并进入PAI控制台的AI计算资源 > 资源池页面。
在灵骏智算资源页签中,单击新建资源组。
在新建资源组对话框中配置以下参数,完成后单击确定。
参数
说明
类型
选择专有资源组。
资源组名称
根据界面提示设置满足规则的资源组名称。
专有网络&交换机&安全组
在下拉框中选择已创建好的VPC、交换机和安全组。
说明后续如果您有访问公网的需求,还需对此处绑定的VPC进行公网NAT网关的配置并绑定EIP,因此此处选择的VPC建议选择为您后续用于访问公网的VPC。
购买灵骏智算资源
在灵骏智算资源页签的资源组列表中,单击资源组名称。
在资源组详情页面的订单列表页签中,单击新建资源。
在购买页面中根据实际业务需要选择节点规格、节点数量和购买时长等必要参数,完成后单击立即购买。
在支付页面完成支付后,在订单列表页面中会展示已购买的灵骏智算资源列表。
管理灵骏智算资源
资源组创建成功并购买灵骏智算资源后,您可以在资源组页面查看资源组基本信息,并对已购买的资源进行管理。具体操作,请参见管理资源。
后续操作
专有资源组创建成功并购买灵骏智算资源后,您可以通过新增资源配额来分配这些资源。具体操作,请参见新增通用计算资源的资源配额。