创建灵骏集群

更新时间:
复制为 MD 格式

灵骏集群是使用灵骏计算节点的基本单位。根据使用场景,灵骏集群分为基础灵骏集群和PAI灵骏集群两种类型。

前提条件

已完成阿里云账号注册认证及灵骏节点购买,详细操作请参见购买灵骏节点

集群类型

灵骏集群分为以下两种类型:

集群类型

使用方式

适用场景

基础灵骏集群

在控制台集群管理页一键创建集群,配置分组、网络、存储、软件等信息创建集群,后续通过远程登录使用节点资源

适用于灵骏裸金属资源场景,您可在构建集群后自行安装配置开发环境。

PAI灵骏集群(ACK灵骏托管版集群)

创建集群后在人工智能平台PAI或容器服务ACK中使用和管理灵骏资源

适用于需要一站式AI开发平台或容器化部署的用户,可使用PAI-DSW、PAI-DLC、PAI-EAS等服务,或使用ACK的容器管理能力。

创建流程

请根据您的使用场景选择合适的集群类型并完成创建:

创建基础灵骏集群

基础灵骏集群提供纯净的计算环境,适合需要自行安装配置开发环境的用户。创建步骤包括:

  1. 配置集群与分组:设置集群编号、资源组、节点机型等基本信息。

  2. 配置集群网络:设置VPC、交换机、安全组等网络参数,部分地域需要配置灵骏连接。

  3. 配置软件实例参数:可选配置CPFS智算版文件系统。

  4. 确认配置并创建集群。

详细操作步骤请参见创建灵骏基础集群

创建PAI灵骏集群

PAI灵骏集群预装了Kubernetes、PAI等组件,可以在容器服务ACK和人工智能平台PAI中直接使用灵骏资源。创建步骤包括:

  1. 配置集群与分组:设置集群编号、资源组、节点机型等基本信息。

  2. 配置集群网络:设置VPC、交换机、安全组等网络参数,部分地域需要配置灵骏连接。

  3. 配置软件实例参数:配置ACK、CPFSPAI相关参数。

  4. 配置软件实例和分组映射关系:创建ACK节点池并关联集群分组。

  5. 确认配置并创建集群。

详细操作步骤请参见创建PAI灵骏集群

后续步骤

集群创建完成后,您可以根据集群类型进行后续操作:

  • 基础灵骏集群:通过SSH远程连接灵骏节点,安装开发环境和AI框架(如PyTorch、TensorFlow等),开始AI模型训练任务。

  • PAI灵骏集群:在PAI控制台中创建资源组和资源配额,使用PAI-DSW、PAI-DLC、PAI-EAS等服务进行AI开发和训练;或在ACK控制台中使用容器管理能力进行容器化部署。