本文主要介绍在激活GPU拓扑资源调度前,您需要安装的组件和部署的配置。

前提条件

  • 创建Kubernetes Pro集群。Kubernetes Pro集群的实例规格类型需要设置为异构计算GPU,其它操作配置,请参见创建ACK Pro版集群
    注意 目前仅支持Kubernetes Pro集群,如果是专有版集群,请提交工单申请白名单。
  • 通过kubectl连接Kubernetes集群。具体操作,请参见通过kubectl工具连接集群
  • 系统组件版本要求具体如下表所示。
    组件 版本要求
    Kubernetes 1.18.8及以上版本
    Helm 3.0及以上版本
    Nvidia 418.87.01及以上版本
    训练框架NCCL版本 2.7+
    Docker 19.03.5
    操作系统 CentOS 7.6、CentOS 7.7、Ubuntu 16.04和Ubuntu 18.04、Alibaba Cloud Linux 2
    显卡 V100

操作步骤

  1. 登录容器服务管理控制台
  2. 在控制台左侧导航栏中,选择市场 > 应用市场
  3. 应用市场页面单击应用目录页签,然后搜索并选中ack-ai-installer
  4. ack-ai-installer页面,单击一键部署
  5. 创建面板中,选择集群和命名空间,然后单击下一步
  6. 参数配置页面,设置相应参数,然后单击确定