灵骏智算资源概述
灵骏智算资源是阿里云PAI为您提供的大规模高密度计算资源服务,为您提供高性能AI训练、高性能计算所需的异构计算算力服务,可用于PAI-DSW和PAI-DLC完成AI开发和训练的工作。本文介绍灵骏智算资源的功能亮点、可用区及操作指引。
灵骏智算资源简介
资源类型
灵骏智算类型的资源,是阿里云自主研发的新一代智能计算资源,提供:
RDMA高速网络架构
高性能通信库
高性能加速软件
GPU虚拟化的技术方案
可以更好的满足高性能算力需求。
资源组类型
阿里云PAI为您提供全托管的灵骏智算资源,您可在PAI产品控制台便捷的完成购买、使用的全流程,如果您已购买单独的灵骏硬件资源,也可将此类资源作为半托管的资源添加至PAI产品控制台,用于后续的训练任务使用。
使用限制
支持使用的地域
当前仅支持华北6(乌兰察布)地域。
支持使用的用户
当前灵骏智算资源仅供白名单用户受限申请使用,如果您希望使用灵骏智算资源提交训练任务,您可先提交工单,申请添加灵骏智算使用白名单。
支持的任务类型
当前灵骏智算资源仅支持Tensorflow、PyTorch类型的训练任务。
依赖的云产品
灵骏智算资源在创建、购买及后续使用的过程中,依赖以下其他云产品,您在购买使用前需先了解依赖的云产品,并根据实际需要提前准备好对应的云产品。
(必选)VPC
购买灵骏智算平台时,您需绑定一个同地域的VPC,并配置交换机与安全组信息,保障灵骏智算资源组与各云产品的网络是连通状态。
(按需)公网NAT网关与EIP
如果后续您需要访问公网环境,例如使用公网环境下的自定义镜像等场景,您还需开通并配置公网NAT网关的SNAT功能,绑定EIP,实现灵骏智算资源访问公网的能力。
配置公网NAT网关的SNAT功能操作详情可参见使用公网NAT网关SNAT功能访问互联网。
(按需)OSS/NAS/智算CPFS
您后续使用灵骏智算资源提交DLC任务时,需先创建数据集,当前支持使用OSS、NAS、智算CPFS类型的数据集,因此您需根据数据集的应用需要提前准备好OSS或NAS或智算CPFS资源,并创建好对应的数据集。详情请参见准备数据集。
申请使用灵骏智算资源
当前灵骏智算资源仅供白名单用户受限申请使用,如果您希望使用灵骏智算资源提交训练任务,您可先提交工单,申请添加灵骏智算使用白名单。申请完成白名单后,您可新建资源组并购买灵骏智算资源,操作详情请参见新建资源组并购买灵骏智算资源。
操作账号和权限要求
阿里云主账号(推荐):使用该账号可完成所有操作,无需额外授权。
RAM用户:需要为该RAM用户授予
AliyunPAIFullAccess
权限,详情请参见附录:AliyunPAIFullAccess。此时RAM用户会拥有PAI全部权限,有操作风险,请谨慎添加。
新建资源组并购买灵骏智算资源
您需先在PAI的控制台上创建一个灵骏智算资源组,然后再按需购买灵骏智算资源,操作详情请参见下文的步骤详情。
新建灵骏资源组
登录并进入PAI控制台的资源和加速 > 计算资源组页面。
新建资源组。
在灵骏智算资源页签中,单击新建资源组。
在新建资源组对话框中配置资源组参数,完成后单击确定。
核心参数配置说明如下。
参数
说明
类型
选择专有资源组。
资源组名称
根据界面提示设置满足规则的资源组名称。
所属工作空间
在下拉框中选择资源组所属的工作空间。
选择后,即将资源组与工作空间进行绑定,后续您可以在对应工作空间中选择使用当前创建的灵骏智算资源组,例如基于此资源组来创建PAI-DLC训练任务。
如果您当前未选择所属工作空间,后续也可在资源组管理页面再配置工作空间。
专有网络&交换机&安全组
在下拉框中选择已创建好的VPC、交换机和安全组。
说明后续如果您有访问公网的需求,还需对此处绑定的VPC进行公网NAT网关的配置并绑定EIP,因此此处选择的VPC建议选择为您后续用于访问公网的VPC。
购买灵骏智算资源
在灵骏智算资源页签的资源组列表中,单击new_resource_group资源组名称。
在new_resource_group的资源组详情页面,单击新建资源。
在购买页面中根据实际业务需要选择节点规格、购买时长、到期自动续费等必要参数,完成后单击立即购买。
在支付页面完成支付后,您可刷新资源组详情页面,在页面中会展示已购买的灵骏智算资源列表。