创建PAI灵骏集群

更新时间:
复制为 MD 格式

PAI灵骏集群(ACK灵骏托管版集群)预装了Kubernetes、PAI等组件,可以在容器服务ACK和人工智能平台PAI中直接使用灵骏资源。

说明

新用户已无法创建PAI灵骏集群(ACK灵骏托管版集群)。

前提条件

已完成阿里云账号注册认证及灵骏节点购买,详细操作请参见购买灵骏节点

创建PAI灵骏集群

步骤一:配置集群与分组

  1. 登录智能计算灵骏控制台,在左侧导航栏选择资源与节点 > 集群管理,单击一键创建集群 > PAI灵骏集群(包括PAI、ACK、CPFS等)

  2. 配置以下关键参数:

    • 集群编号:输入购买节点时获得的集群编号。

    • 资源组:选择集群所属的资源组,便于资源分类管理。

    单击创建分组,配置以下关键分组信息,其他参数按需配置即可。

    • 默认机型:在下拉列表中选择购买的节点机型。

    • 节点实例:选择购买的节点资源,加入到当前分组中。

    • 登录密码:设置集群节点的root用户登录密码,用于后续SSH远程连接,或者您也可以选择使用密钥对

单击保存,进入下一步 网络配置

步骤二:配置集群网络

部分地域及实例规格,需要通过灵骏连接连通灵骏节点与用户的云企业网专有网络VPC。因此,请先查看配置页面是否需要灵骏连接,然后阅读对应配置说明。

无需配置灵骏连接

  • 专有网络(VPC):选择已创建的VPC,如果没有请单击页面去创建VPC

    重要

    VPC的地域需与灵骏节点地域一致。

  • 交换机(vSwitch)安全组:选择VPC下创建的交换机,详细操作请参见专有网络与交换机使用安全组

  • 后端RDMA网络IP版本:选择后端RDMA网络使用的IP版本,可支持IPv6IPv4(部分地域仅支持IPv4)。

需要配置灵骏连接

  1. 配置集群网段

    • 集群网段:为集群内部使用的私有网段,用于给灵骏节点分配IP地址,例如:172.16.0.0/12

    • 集群子网:是集群网段的子网段,用于更细粒度的IP地址分配。

  2. 配置灵骏连接

    单击当前未授权,请点此授权,授权灵骏服务关联角色AliyunServiceRoleForEfloVcc,以便灵骏连接访问其他云产品。

    • 实例ID:在下拉列表中选择已购买的灵骏连接实例。如果没有灵骏连接实例请单击页面去购买灵骏连接实例

      重要

      灵骏连接的地域需与灵骏节点地域一致。

    • 云企业网(CEN):选择已创建的云企业网实例。

      重要

      请确保已在CEN中创建转发路由器,且转发路由器的地域与灵骏节点地域一致。详细操作请参见转发路由器实例

  3. 配置监控网络信息

    • 专有网络(VPC):选择CEN下的VPC,您可在创建VPC后将其添加至CEN下。灵骏将使用该VPC下的交换机对灵骏连接的连通性进行监控,请确保交换机至少有1个空闲IP。

      重要
      • VPC的地域需与灵骏节点地域一致。

      • 集群网段、互联网段、监控网络的专有网络VPC互相之间不能冲突,且监控网络的专有网络VPC不能和灵骏待连通的其他网络环境(如用户其他VPC网络、线下IDC网段)冲突。如:集群网段选择了172.16.0.0/12,则VPC网段可选择10.0.0.0/16

      • 只有将VPC添加至CEN下,才能在下拉列表中选择相应的VPC,详细操作请参见创建VPC连接

    • 交换机(vSwitch):选择创建的交换机。

单击保存,进入下一步 软件实例基本参数

步骤三:配置软件实例基本参数

PAI灵骏集群需要配置ACK、CPFSPAI相关参数。

配置ACK参数

ACK页签,配置PAI灵骏集群(ACK灵骏托管版集群)的相关参数。容器集群参数的说明,请参见创建ACK托管集群

重要
  • Service CIDR、灵骏集群网段、监控网络VPC网段之间不能重叠。

  • ACK灵骏托管版集群需单独计费,计费详情请参见ACK灵骏集群计费说明

配置CPFS参数(可选)

CPFS页签,可以按需配置CPFS文件系统参数。关于创建文件系统CPFS,请参见创建文件系统

配置PAI参数(可选)

PAI页签,配置PAI相关参数。保持默认配置即可,PAI将自动安装相关组件。

配置完成后,单击保存,进入下一步 软件实例和分组映射关系

步骤四:配置软件实例和分组映射关系

PAI灵骏集群提供了节点池功能,您可以更方便地对灵骏节点进行分组管理,例如节点配置、批量管理、指定调度、GPU配置等。节点池的更多信息,请参见灵骏节点池概述

  1. 单击创建节点池,创建ACK节点池。

  2. 配置节点池名称最大节点数量等参数。

  3. 单击选择关联分组,在弹出的对话框中,选中您想要关联的集群分组,单击确定

单击保存,进入下一步 确认配置

步骤五:确认配置并创建集群

  1. 确认配置页面,确认集群基本信息、网络配置、软件实例和分组映射关系等参数。

  2. 确认无误后,单击提交配置,开始创建集群。

  3. 单击依赖检查区域的完成授权,完成对容器服务的授权。

集群创建需要几分钟时间,创建完成后会回到集群管理页面,您可以在集群列表中查看新创建的集群状态。

使用PAI灵骏集群

PAI灵骏集群创建完成后,可以通过以下两种方式使用:

PAI中使用

  1. 登录PAI控制台,在左侧菜单栏单击资源池 > 自持计算资源 > 新建资源组。选择之前创建的PAI灵骏集群,单击确定

  2. 在左侧菜单栏单击资源配额(Quota) > 自持计算资源 > 新建资源配额,配置以下关键参数:

    • 关联工作空间:关联要使用的PAI工作空间,后续使用资源时需要选择该工作空间。

    • 来源类型:选择自持资源。

    • 来源:选择上步创建的资源组。

    • 节点/规格:选择购买的灵骏节点及规格。

  3. 在创建DSW/DLC/EAS时,资源类型选择资源配额,并选择上步创建的自持灵骏资源配额。

后续可参考PAI文档使用灵骏资源:

  • 使用云端IDEAI开发环境(开发机),快速开始模型开发,详情请参见交互式建模DSW

  • 快速创建分布式或单机训练任务,详情请参见分布式训练DLC

  • 可将训练好的模型部署为在线推理服务,详情请参见模型在线服务EAS

ACK中使用

登录容器服务ACK控制台,在集群列表即可看到创建的PAI灵骏集群。

后续使用可按照ACK托管版集群使用,详细操作请参见: