本文主要介绍在激活GPU拓扑资源调度前,您需要安装的组件和部署的配置。
前提条件
- 创建Kubernetes Pro集群。Kubernetes Pro集群的实例规格类型需要设置为异构计算GPU,其它操作配置,请参见创建ACK Pro版集群。
注意 目前仅支持Kubernetes Pro集群,如果是专有版集群,请提交工单申请白名单。
- 通过kubectl连接Kubernetes集群。具体操作,请参见通过kubectl工具连接集群。
- 系统组件版本要求具体如下表所示。
组件 版本要求 Kubernetes 1.18.8及以上版本 Helm 3.0及以上版本 Nvidia 418.87.01及以上版本 训练框架NCCL版本 2.7+ Docker 19.03.5 操作系统 CentOS 7.6、CentOS 7.7、Ubuntu 16.04和Ubuntu 18.04、Alibaba Cloud Linux 2 显卡 V100
操作步骤
- 登录容器服务管理控制台。
- 在控制台左侧导航栏中,选择 。
- 在应用市场页面单击应用目录页签,然后搜索并选中ack-ai-installer。
- 在ack-ai-installer页面,单击一键部署。
- 在创建面板中,选择集群和命名空间,然后单击下一步。
- 在参数配置页面,设置相应参数,然后单击确定。