激活GPU拓扑资源调度前,您需要安装并配置相关组件。本文介绍如何安装GPU拓扑感知调度相关组件以及在集群中开启GPU拓扑感知调度能力。
前提条件
-
创建ACK托管集群,集群的实例规格类型选择为GPU云服务器。
-
系统组件版本满足以下要求。
组件
版本要求
Kubernetes
1.18.8及以上版本
Nvidia
418.87.01及以上版本
训练框架NCCL版本
2.7+
操作系统
-
CentOS 7.6
-
CentOS 7.7
-
Ubuntu 16.04
-
Ubuntu 18.04
-
Alibaba Cloud Linux 2
-
Alibaba Cloud Linux 3
显卡
V100
-
操作步骤
该文章对您有帮助吗?