ACK专有版集群支持共享GPU能力,提供共享GPU实例的显存隔离和算力隔离功能,本文介绍通过配置共享GPU算力分配策略,实现不同效果的算力分配。
前提条件
- Helm版本≥3.0.0。关于Helm的升级操作,请参见【组件升级】Helm V2 Tiller升级公告或如何手动升级Helm的版本?。
- 已创建ACK专有版集群,且版本≥1.20.11。关于Kubernetes的升级操作,请参见升级ACK集群K8s版本。
- cGPU版本≥1.0.6。关于cGPU的升级操作,请参见升级节点cGPU版本。
背景信息
ACK专有版集群的共享GPU功能基于cGPU实现。共享GPU算力隔离提供不同的分配策略,您可以在ACK专有版集群中通过设置共享GPU组件的Policy来选择不同的分配策略。关于cGPU的更多信息,请参见什么是GPU容器共享技术cGPU。
注意事项
- 如果您的节点已存在cGPU隔离模块,在安装共享GPU组件之后,您需要重启该节点,Policy才能生效。关于重启节点的具体操作,请参见重启实例。
说明 您可以登录节点,执行
cat /proc/cgpu_km/version
命令,查看是否安装cGPU隔离模块。执行命令后显示cGPU的版本号,说明已安装cGPU隔离模块。 - 如果您的节点是干净的环境(未安装cGPU隔离模块或已卸载cGPU隔离模块),安装共享GPU组件后,Policy立即生效。
- 同一个集群中的共享GPU节点只能使用同一种Policy。
步骤一:查看是否已安装共享GPU组件
配置共享GPU算力分配策略时,未安装共享GPU组件和已安装共享GPU组件的操作方式不同,因此需要您确认集群是否已安装共享GPU组件。
步骤二:配置共享GPU算力分配策略
未安装共享GPU组件和已安装共享GPU组件,配置共享GPU算力分配策略的具体操作步骤如下: