ACK专有版集群安装的共享GPU基础版在ACK Pro版集群中是无法正常使用的,ACK Pro集群仅支持共享GPU专业版。所以当集群由ACK专有版集群迁移至ACK Pro版集群后,共享GPU组件也需要升级。本文介绍如何在ACK Pro版集群将共享GPU基础版升级为共享GPU专业版。

前提条件

已将ACK专有版集群迁移至ACK Pro托管版集群中,且迁移前的ACK专有版集群已安装共享GPU基础版。具体操作,请参见热迁移ACK专有版集群至Pro托管集群

操作步骤

  1. 登录容器服务管理控制台
  2. 在控制台左侧导航栏中,单击集群
  3. 集群列表页面中,单击目标集群名称或者目标集群右侧操作列下的详情
  4. 在集群管理页左侧导航栏中,选择工作负载 > 任务
  5. 任务页面,单击右上角的使用YAML创建资源
  6. 创建页面,选择自定义示例模板,将以下YAML示例复制到模板
    该任务用于卸载旧版共享GPU组件及转换共享GPU节点标签。
    apiVersion: batch/v1
    kind: Job
    metadata:
      name: gpushare-label-migration1
      namespace: kube-system
    spec:
      backoffLimit: 5
      template:
        spec:
          serviceAccount: admin
          containers:
          - name: label-transfer
            image: registry-vpc.cn-beijing.aliyuncs.com/acs/gpushare-migration:v0.1.0
            env:
              - name: CHANGE_LABELS_INFO
                value: "cgpu=true::ack.node.gpu.schedule=cgpu,gpushare=true::ack.node.gpu.schedule=share"
          restartPolicy: OnFailure
  7. 单击创建,单击任务gpushare-label-migration的链接查看创建进度。
    gpushare-migration

    在任务gpushare-label-migration详情页面的容器组页签下,若任务的状态为Completed,表示任务运行成功。

  8. 安装共享GPU专业版。具体操作,请参见步骤一:安装共享GPU组件
  9. 安装查询集群GPU显存使用情况的工具。具体操作,请参见步骤四:安装和使用GPU资源查询工具

后续步骤

关于如何验证共享GPU专业版的共享调度及显存隔离能力,请参见运行共享GPU示例