本文主要介绍在激活GPU拓扑资源调度前,您需要安装的组件和部署的配置。
前提条件
- 创建Kubernetes Pro集群。Kubernetes Pro集群的实例规格类型需要设置为异构计算GPU,其它操作配置,请参见创建Kubernetes Pro版集群。
注意 目前仅支持Kubernetes Pro集群,如果是专有版集群,请提交工单申请白名单。
- 通过kubectl连接Kubernetes集群。具体操作,请参见通过kubectl连接Kubernetes集群。
- 系统组件版本要求具体如下表所示。
组件 版本要求 Kubernetes 1.18.8及以上版本 Helm 3.0及以上版本 Nvidia 418.87.01及以上版本 训练框架NCCL版本 2.7+ Docker 19.03.5 操作系统 CentOS 7.6、CentOS 7.7、Ubuntu 16.04和Ubuntu 18.04、Alibaba Cloud Linux 2 显卡 V100
操作步骤
- 登录容器服务管理控制台。
- 在控制台左侧导航栏中,选择 。
- 在应用目录页面的右上角名称文本框输入ack-ai-installer。
- 在应用目录-ack-ai-installer页面右侧的创建面板中,在集群列表框中选择目标集群,并单击创建。
在文档使用中是否遇到以下问题
更多建议
匿名提交