ACK专有版集群安装的共享GPU基础版在ACK Pro版集群中无法正常使用,ACK Pro集群仅支持共享GPU专业版。所以当集群由ACK专有版集群迁移至ACK Pro版集群后,共享GPU组件也需要升级。本文介绍如何在ACK
Pro版集群将共享GPU基础版升级为共享GPU专业版。
操作步骤
- 通过kubectl工具连接集群。
- 下载转换节点标签和卸载旧共享GPU组件的Job YAML文件。YAML文件,请参见gpushare-label-change.yaml。
- 执行以下命令,部署共享GPU组件的Job。
kubectl apply -f gpushare-label-change.yaml
- 执行以下命令,查看Job是否运行成功。
kubectl get po -l app=change-gpushare-labels -n kube-system
预期输出:
NAME READY STATUS RESTARTS AGE
gpushare-label-migration-v**** 0/1 Completed 0 89s
由预期输出得到,运行状态为
Completed
,表示Job运行成功。
- 安装共享GPU专业版。具体操作,请参见安装共享GPU组件。
- 安装查询集群GPU显存使用情况的工具。具体操作,请参见安装和使用GPU资源查询工具。
后续步骤
关于如何验证共享GPU专业版的共享调度及显存隔离能力,请参见运行共享GPU示例。