文档

ACK专有版集群迁移至ACK集群Pro版后升级共享GPU组件

更新时间:

ACK专有版集群安装的共享GPU组件在ACK集群Pro版中无法正常使用,需在ACK集群Pro版中升级相关组件,以实现GPU的调度和隔离。本文介绍如何在ACK集群Pro版中升级共享GPU组件。

前提条件

已将ACK专有版集群迁移至ACK集群Pro版中,且迁移前的ACK专有版集群已安装共享GPU组件。具体操作,请参见热迁移ACK专有版集群至ACK集群Pro版

操作步骤

  1. 获取集群KubeConfig并通过kubectl工具连接集群

  2. 下载转换节点标签和卸载旧共享GPU组件的Job YAML文件。YAML文件,请参见gpushare-label-change.yaml

  3. 执行以下命令,部署共享GPU组件的Job。

    kubectl apply -f gpushare-label-change.yaml
  4. 执行以下命令,查看Job是否运行成功。

    kubectl get po -l app=change-gpushare-labels -n kube-system

    预期输出:

    NAME                             READY   STATUS      RESTARTS   AGE
    gpushare-label-migration-v****   0/1     Completed   0          89s

    预期输出表明,运行状态为Completed,Job运行成功。

  5. 安装共享GPU组件。具体操作,请参见安装共享GPU组件

  6. 安装查询集群GPU显存使用情况的工具。具体操作,请参见安装和使用GPU资源查询工具

后续步骤

关于如何验证共享GPU组件的共享调度及显存隔离能力,请参见运行共享GPU调度示例

  • 本页导读 (1)
文档反馈