升级节点cGPU版本

ACK集群支持GPU共享调度时节点需要安装cGPU模块。本文介绍如何通过命令及控制台升级节点上的cGPU模块。

步骤一:组件升级

集群类型

组件升级方式

  • ACK托管集群Pro

  • ACK Edge集群Pro

ack-ai-installer组件升级方式,请参见升级共享GPU调度组件

ACK专有集群

ack-cgpu组件升级方式,请按照如下步骤进行:

  1. 登录容器服务管理控制台,在左侧导航栏选择集群列表

  2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择应用 > Helm

  3. Helm页面,找到ack-cgpu组件,点击其对应的更新按钮,选择对应的版本,然后单击确定

步骤二:存量节点升级

重要
  • 升级过程中需停止节点上的GPU业务应用。

  • 建议先操作一个节点,验证GPU业务没有问题以后,再批量操作其他GPU节点。

  • 本方案会重置节点的操作系统盘,如果您的节点操作系统盘存在数据,请先做好备份。

1. 移除并重新添加节点

  1. 登录容器服务管理控制台,在左侧导航栏选择集群列表

  2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择节点管理 > 节点

  3. 节点页面选中待升级的cGPU节点,单击批量移除移除节点对话框选中自动排空节点(drain)

  4. 将移除的节点重新添加到原有的节点池中。具体操作,请参见添加已有节点

    重要

    添加节点方式请选择自动添加。手动添加节点方式不会进行重置节点操作。

2. 结果验证

  1. 执行以下命令,查询新添加节点所对应的cgpu-installer。

    kubectl get po -l name=cgpu-installer -n kube-system -o wide

    预期输出:

    NAME                   READY   STATUS    RESTARTS   AGE    IP                NODE                         NOMINATED NODE   READINESS GATES
    cgpu-installer-*****   1/1     Running   0          4d2h   192.168.XXX.XX1   cn-beijing.192.168.XXX.XX1   <none>           <none>
    cgpu-installer-**2     1/1     Running   0          4d2h   192.168.XXX.XX2   cn-beijing.192.168.XXX.XX2   <none>           <none>
    cgpu-installer-**3     1/1     Running   0          4d2h   192.168.XXX.XX3   cn-beijing.192.168.XXX.XX3   <none>           <none>
  2. 执行以下命令,进入名称为cgpu-installer-******Pod。

    kubectl exec -ti cgpu-installer-xxxxx -n kube-system -- bash
  3. 执行以下命令,查询cGPU当前版本。

    nsenter -t 1 -i -p -n -u -m -- cat /proc/cgpu_km/version

    示例输出:

    1.5.16
    说明

    关于最新的cGPU版本,请参见ack-ai-installer

cGPU版本兼容性

NVIDIA驱动兼容性

cGPU版本

兼容的 NVIDIA 驱动

1.5.20

1.5.19

1.5.18

1.5.17

1.5.16

1.5.15

1.5.13

1.5.12

1.5.11

1.5.10

1.5.9

1.5.8

1.5.7

1.5.6

1.5.5

1.5.3

支持:

  • 460系列

  • 470系列

  • 510系列

  • 515系列

  • 525系列

  • 535系列

  • 550系列

  • 560系列

  • 565系列

  • 570系列

  • 575系列

1.5.2

1.0.10

1.0.9

1.0.8

1.0.7

1.0.6

1.0.5

支持:

  • 460系列

  • 470系列 <= 470.161.03

  • 510系列 <= 510.108.03

  • 515系列 <= 515.86.01

  • 525系列 <= 525.89.03

不支持:

  • 535系列

  • 550系列

  • 560系列

  • 565系列

  • 570系列

  • 575系列

1.0.3

0.8.17

0.8.13

支持:

  • 460系列

  • 470系列 <= 470.161.03

不支持:

  • 510系列

  • 515系列

  • 525系列

  • 535系列

  • 550系列

  • 560系列

  • 565系列

  • 570系列

  • 575系列

实例规格族兼容性

cGPU版本

兼容的实例规格族

1.5.20

1.5.19

支持:

  • gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

  • gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

  • gn8t / ebmgn8t

  • gn8is / gn8v / ebmgn8is / ebmgn8v

  • gn8ia / ebmgn8ia

  • ebmgn9t

1.5.18

1.5.17

1.5.16

1.5.15

1.5.13

1.5.12

1.5.11

1.5.10

1.5.9

支持:

  • gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

  • gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

  • gn8t / ebmgn8t

  • gn8is / gn8v / ebmgn8is / ebmgn8v

  • gn8ia / ebmgn8ia

不支持:

  • ebmgn9t

1.5.8

1.5.7

支持:

  • gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

  • gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

  • gn8t / ebmgn8t

  • gn8is / gn8v / ebmgn8is / ebmgn8v

不支持:

  • gn8ia / ebmgn8ia

  • ebmgn9t

1.5.6

1.5.5

支持:

  • gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

  • gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

  • gn8t / ebmgn8t

不支持:

  • gn8is / gn8v / ebmgn8is / ebmgn8v

  • gn8ia / ebmgn8ia

  • ebmgn9t

1.5.3

1.5.2

1.0.10

1.0.9

1.0.8

1.0.7

1.0.6

1.0.5

1.0.3

支持:

  • gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

  • gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

不支持:

  • gn8t / ebmgn8t

  • gn8is / gn8v / ebmgn8is / ebmgn8v

  • gn8ia / ebmgn8ia

  • ebmgn9t

0.8.17

0.8.13

支持:

  • gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

不支持:

  • gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

  • gn8t / ebmgn8t

  • gn8is / gn8v / ebmgn8is / ebmgn8v

  • gn8ia / ebmgn8ia

  • ebmgn9t

nvidia-container-toolkit兼容性

cGPU版本

兼容的 nvidia-container-toolkit

1.5.20

1.5.19

1.5.18

1.5.17

1.5.16

1.5.15

1.5.13

1.5.12

1.5.11

1.5.10

1.5.9

1.5.8

1.5.7

1.5.6

1.5.5

1.5.3

1.5.2

1.0.10

支持:

  • nvidia-container-toolkit <= 1.10

  • nvidia-container-toolkit: 1.11 ~ 1.17

1.0.9

1.0.8

1.0.7

1.0.6

1.0.5

1.0.3

0.8.17

0.8.13

支持:

  • nvidia-container-toolkit <= 1.10

不支持:

  • nvidia-container-toolkit: 1.11 ~ 1.17

kernel 版本兼容性

cGPU版本

兼容的 kernel 版本

1.5.20

1.5.19

1.5.18

1.5.17

1.5.16

1.5.15

1.5.13

1.5.12

1.5.11

1.5.10

1.5.9

支持:

  • kernel 3.x

  • kernel 4.x

  • kernel 5.x <= 5.15

1.5.8

1.5.7

1.5.6

1.5.5

1.5.3

支持:

  • kernel 3.x

  • kernel 4.x

  • kernel 5.x <= 5.10

1.5.2

1.0.10

1.0.9

1.0.8

1.0.7

1.0.6

1.0.5

1.0.3

支持:

  • kernel 3.x

  • kernel 4.x

  • kernel 5.x <= 5.1

0.8.17

支持:

  • kernel 3.x

  • kernel 4.x

  • kernel 5.x <= 5.0

0.8.13

0.8.12

0.8.10

支持:

  • kernel 3.x

  • kernel 4.x

不支持:

  • kernel 5.x