ACK专有版集群安装的共享GPU基础版在ACK Pro版集群中无法正常使用,ACK Pro集群仅支持共享GPU专业版。所以当集群由ACK专有版集群迁移至ACK Pro版集群后,共享GPU组件也需要升级。本文介绍如何在ACK Pro版集群将共享GPU基础版升级为共享GPU专业版。

前提条件

已将ACK专有版集群迁移至ACK Pro托管版集群中,且迁移前的ACK专有版集群已安装共享GPU基础版。具体操作,请参见热迁移ACK专有版集群至ACK Pro版集群

操作步骤

  1. 通过kubectl工具连接集群
  2. 下载转换节点标签和卸载旧共享GPU组件的Job YAML文件。YAML文件,请参见gpushare-label-change.yaml
  3. 执行以下命令,部署共享GPU组件的Job。
    kubectl apply -f gpushare-label-change.yaml
  4. 执行以下命令,查看Job是否运行成功。
    kubectl get po -l app=change-gpushare-labels -n kube-system

    预期输出:

    NAME                             READY   STATUS      RESTARTS   AGE
    gpushare-label-migration-v****   0/1     Completed   0          89s
    由预期输出得到,运行状态为Completed,表示Job运行成功。
  5. 安装共享GPU专业版。具体操作,请参见安装共享GPU组件
  6. 安装查询集群GPU显存使用情况的工具。具体操作,请参见安装和使用GPU资源查询工具

后续步骤

关于如何验证共享GPU专业版的共享调度及显存隔离能力,请参见运行共享GPU示例