ACK提供了GPU共享调度能力,服务于共享单GPU的模型预测场景,同时也可以通过Nvidia驱动内核态保障GPU显存的隔离。本文介绍如何在GPU节点上安装共享GPU组件和GPU资源查询工具,实现GPU的调度和隔离能力。
前提条件
- 创建ACK Pro集群。ACK Pro集群的实例规格类型需要设置为异构计算GPU/FPGA/NPU,其他配置请参见创建Kubernetes Pro版集群。
说明 仅支持在ACK Pro集群安装共享GPU组件,如果您使用的是专有版集群,您可以提交工单申请白名单。
- 通过kubectl连接Kubernetes集群。
- 共享GPU组件的安装没有地域限制,但是目前只有以下地域支持GPU显存隔离能力。如果您需要使用显存隔离能力,请确保集群所在地域在此范围内。
地域 地域ID 华北2(北京) cn-beijing 华东2(上海) cn-shanghai 华东1(杭州) cn-hangzhou 华北(张家口) cn-zhangjiakou 华南1(深圳) cn-shenzhen 西南1(成都) cn-chengdu 华南2(河源) cn-heyuan 中国(香港) cn-hongkong 印度尼西亚(雅加达) ap-southeast-5 新加坡 ap-southeast-1 美国(弗吉尼亚) us-east-1 美国(硅谷) us-west-1
使用须知
配置 | 支持版本 |
---|---|
Kubernetes | 1.18.8及其以上 |
Helm版本 | 3.0及以上版本 |
Nvidia驱动版本 | 418.87.01及以上版本 |
Docker版本 | 19.03.5 |
操作系统 | CentOS 7.6、CentOS 7.7、Ubuntu 16.04和Ubuntu 18.04,Aliyun Cloud Linux 2.x |
支持显卡 | Telsa P4、Telsa P100、 Telsa T4和Telsa v100(16 GB) |
在文档使用中是否遇到以下问题
更多建议
匿名提交