安装GPU拓扑感知调度组件

激活GPU拓扑资源调度前,您需要安装并配置相关组件。本文介绍如何安装GPU拓扑感知调度相关组件以及在集群中开启GPU拓扑感知调度能力。

前提条件

  • 已创建ACK Pro集群,且集群的实例规格类型选择为GPU云服务器。更多信息,请参见创建Kubernetes托管版集群

  • 获取集群KubeConfig并通过kubectl工具连接集群

  • 系统组件版本满足以下要求。

    组件

    版本要求

    Kubernetes

    1.18.8及以上版本

    Nvidia

    418.87.01及以上版本

    训练框架NCCL版本

    2.7+

    操作系统

    • CentOS 7.6

    • CentOS 7.7

    • Ubuntu 16.04

    • Ubuntu 18.04

    • Alibaba Cloud Linux 2

    • Alibaba Cloud Linux 3

    显卡

    V100

操作步骤

  1. 登录容器服务管理控制台,在左侧导航栏选择集群

  2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择应用 > 云原生AI套件

  3. 云原生AI套件页面,单击一键部署

  4. 在一键部署页面的调度区域,选中调度组件(批量任务调度、GPU共享、GPU拓扑感知、NPU调度)复选框,然后单击下方的部署云原生AI套件。更多关于部署云原生AI套件的配置项介绍,请参见安装云原生AI套件

    部署完成后,在云原生AI套件页面的组件列表,您可以看到已安装的GPU拓扑感知调度组件ack-ai-installer。

    说明

    如您之前一键部署过云原生AI套件,则可以直接在组件列表,单击调度组件ack-ai-installer右侧操作列的部署,进行该组件的安装。