灵骏集群是使用灵骏计算节点的基本单位。根据使用场景,灵骏集群分为基础灵骏集群和PAI灵骏集群两种类型。
前提条件
已完成阿里云账号注册认证及灵骏节点购买,详细操作请参见购买灵骏节点。
集群类型
灵骏集群分为以下两种类型:
集群类型 | 使用方式 | 适用场景 |
基础灵骏集群 | 在控制台集群管理页一键创建集群,配置分组、网络、存储、软件等信息创建集群,后续通过远程登录使用节点资源 | 适用于灵骏裸金属资源场景,您可在构建集群后自行安装配置开发环境。 |
PAI灵骏集群(ACK灵骏托管版集群) | 创建集群后在人工智能平台PAI或容器服务ACK中使用和管理灵骏资源 | 适用于需要一站式AI开发平台或容器化部署的用户,可使用PAI-DSW、PAI-DLC、PAI-EAS等服务,或使用ACK的容器管理能力。 |
创建流程
请根据您的使用场景选择合适的集群类型并完成创建:
创建基础灵骏集群
基础灵骏集群提供纯净的计算环境,适合需要自行安装配置开发环境的用户。创建步骤包括:
配置集群与分组:设置集群编号、资源组、节点机型等基本信息。
配置集群网络:设置VPC、交换机、安全组等网络参数,部分地域需要配置灵骏连接。
配置软件实例参数:可选配置CPFS智算版文件系统。
确认配置并创建集群。
详细操作步骤请参见创建灵骏基础集群。
创建PAI灵骏集群
PAI灵骏集群预装了Kubernetes、PAI等组件,可以在容器服务ACK和人工智能平台PAI中直接使用灵骏资源。创建步骤包括:
配置集群与分组:设置集群编号、资源组、节点机型等基本信息。
配置集群网络:设置VPC、交换机、安全组等网络参数,部分地域需要配置灵骏连接。
配置软件实例参数:配置ACK、CPFS和PAI相关参数。
配置软件实例和分组映射关系:创建ACK节点池并关联集群分组。
确认配置并创建集群。
详细操作步骤请参见创建PAI灵骏集群。
后续步骤
集群创建完成后,您可以根据集群类型进行后续操作:
基础灵骏集群:通过SSH远程连接灵骏节点,安装开发环境和AI框架(如PyTorch、TensorFlow等),开始AI模型训练任务。
PAI灵骏集群:在PAI控制台中创建资源组和资源配额,使用PAI-DSW、PAI-DLC、PAI-EAS等服务进行AI开发和训练;或在ACK控制台中使用容器管理能力进行容器化部署。