针对使用共享GPU的模型预测场景,容器服务 Kubernetes 版提供了共享GPU调度能力,同时也支持NVIDIA驱动在内核态的控制,保障GPU显存的隔离。本文介绍如何在专有版GPU集群中安装GPU隔离模块及GPU分配查询工具,实现GPU的共享和隔离能力。
前提条件
- 已创建ACK专有版GPU集群。具体操作,请参见创建GPU集群。 
- 已通过kubectl工具连接专有版GPU集群。具体操作,请参见获取集群KubeConfig并通过kubectl工具连接集群。 
使用限制
支持共享GPU调度的节点不能将CPU Policy设置为static。
更多使用限制,请见下表。
| 配置 | 支持版本 | 
| Kubernetes | 仅支持1.12.6及其以上版本的专有版集群 | 
| 操作系统 | 除了Windows系统外的其他容器服务Kubernetes版支持的操作系统 | 
| 支持显卡 | 
步骤一:为带有GPU设备的节点打标签
- 登录容器服务管理控制台,在左侧导航栏选择集群。 
- 在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择。 
- 在节点管理页面,单击右上角的标签与污点管理。 
- 在标签与污点管理页面,批量选择节点,然后单击添加标签。 
- 在弹出的添加对话框中,填写标签名称和值,然后单击确定。 - 设置名称为cgpu,值为true,使节点共享GPU功能生效。 
重要 
如果您需要关闭节点共享GPU功能,可以设置名称为cgpu,值为false。删除标签不能关闭节点共享GPU功能。
步骤二:为添加标签的节点安装共享GPU组件
- 在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择。 
- 在页面左上角单击创建。在Chart中选中ack-cgpu,其余配置项按照界面提示操作,完成ack-cgpu的安装。 - 在Helm页面,当ack-cgpu的状态变成已部署时,表明ack-cgpu已成功部署。 
该文章对您有帮助吗?