ack-nvidia-device-plugin组件介绍与变更说明

GPU设备插件(NVIDIA Device Plugin)是Kubernetes集群中用于管理每个节点的GPU的组件,使得Kubernetes能够更方便、高效地利用GPU资源。

使用说明

关于如何查看NVIDIA Device Plugin版本、升级NVIDIA Device Plugin、重启NVIDIA Device Plugin、GPU设备隔离等操作,请参见配置及管理NVIDIA Device Plugin

版本差异

ack-nvidia-device-plugin组件随着集群版本的不同,其实现方式和管理策略如下表所示。

特性

1.32及以上集群版本

1.201.31间集群版本

部署方式

DaemonSet

Static Pod

管理方式

控制台组件管理

手动维护

节点标签要求

ack.node.gpu.schedule=default

无特殊要求

随节点池升级策略

手动升级

自动升级

若集群版本低于1.20,建议手动升级集群

变更记录

1.32及以上集群版本

202509

版本号

镜像Tag

变更时间

变更内容

变更影响

v0.4.0

v0.17.3-ack-1.0-b70733ec

20250916

此次升级不会对业务造成影响。

202507

版本号

镜像Tag

变更时间

变更内容

变更影响

v0.3.0

v0.17.0-ack-1.0-678014dd

20250714

此次升级不会对业务造成影响。

202504

版本号

镜像Tag

变更时间

变更内容

变更影响

v0.2.0

v0.17.0-49a827fd-aliyun

20250429

  • 基于NVIDIA Device Plugin社区v0.17.0版本。

  • 支持health check能力(检测间隔时间为5分钟),避免Device Pluginkubelet GRPC连接中断导致节点上报GPU资源为0的问题。

  • 修复GPU卡故障情况下,不断重试创建GPU Pod问题。

  • 默认关闭节点出现XID后,进行设备隔离的能力。

此次升级不会对业务造成影响。

202412

版本号

镜像Tag

变更时间

变更内容

变更影响

v0.1.0

v0.17.0-1-aliyun

20241226

基于NVIDIA Device Plugin社区v0.17.0版本。

此次升级不会对业务造成影响。

1.201.31间集群版本

202501

镜像Tag

变更时间

变更内容

变更影响

v0.9.3-0dd4d5f5-aliyun

20250116

  • 默认开启节点出现XID后,进行设备隔离操作。

  • 更改resources.limitsresources.requestscpumemory的值。

此次升级不会对业务造成影响。

202404

镜像Tag

变更时间

变更内容

变更影响

v0.9.1-576cfc77-aliyun

20240408

移除livenessProbe

此次升级不会对业务造成影响。

202404

镜像Tag

变更时间

变更内容

变更影响

v0.9.1-3f942982-aliyun

20240229

增加livenessProbe

此次升级不会对业务造成影响。

202308

镜像Tag

变更时间

变更内容

变更影响

v0.9.0-70671340-aliyun

20230802

修改resources.limits

此次升级不会对业务造成影响。

202104

镜像Tag

变更时间

变更内容

变更影响

1.12

20210401

基于NVIDIA Device Plugin自定义GPU设备挂载逻辑。

此次升级不会对业务造成影响。