ack-ai-installer组件介绍与变更说明

ack-ai-installer是增强ACK托管集群ProACK Edge集群Pro调度能力的Device Plugin(设备插件)的组件集合,支持结合ACK Scheduler(ACK基于Kubernetes Scheduling Framework扩展机制,针对不同任务负载、不同弹性资源的统一调度系统)完成一些针对异构计算资源的复杂调度,包括共享GPU调度、GPU拓扑感知调度等。本文介绍ack-ai-installer组件的基础信息、使用说明和变更记录。

组件介绍

结合ACK Scheduler,ack-ai-installer可以提供共享GPU调度(包括共享隔离能力)、GPU拓扑感知调度等调度能力。ack-ai-installer目前包括如下组件。

gpushare-device-plugincgpu-installer

ACK托管集群ProACK Edge集群ProACK Scheduler默认支持独占GPU调度,ack-ai-installer(gpushare-device-plugin)结合ACK Scheduler可以实现共享GPU调度和共享隔离能力。共享GPU调度可以使多个应用程序或进程共享一张GPU卡资源,以提高系统的资源利用率。 在共享GPU调度的基础上,ack-ai-installer(cgpu-installer)还结合了阿里云GPU容器共享技术cGPU,支持GPU显存隔离,使不同的应用程序或进程在GPU内存中相互隔离,避免各个任务之间相互干扰,提高整个系统的性能和效率。同时,ack-ai-installer(cgpu-installer)还支持GPU算力隔离,并提供不同的分配策略(平均、抢占、权重等),可以更精细化地调度和使用GPU的算力资源。关于共享GPU调度与隔离的更多信息,例如安装方式、使用场景等,请参见管理共享GPU调度组件通过共享GPU调度实现算力分配

gputopo-device-plugin

结合ACK Scheduler,ack-ai-installer(gputopo-device-plugin)支持实现GPU拓扑感知调度,在节点的GPU组合中选择具有最优训练速度的组合。关于GPU拓扑感知调度的更多信息,例如安装步骤、使用场景等,请参见GPU拓扑感知调度

使用说明

  • ack-ai-installer组件仅支持在ACK托管集群ProACK Edge集群Pro中通过云原生AI套件控制台页面安装,在ACK灵骏托管版集群中以组件的形式预安装。

  • ack-ai-installer组件版本低于1.12.0,支持1.18.8及以上集群版本。

  • ack-ai-installer组件版本为1.12.0及以上,仅支持1.20及以上集群版本。

变更说明

202508

版本号

变更内容

变更时间

变更影响

1.12.8

cGPU 1.5.20版本更新内容:

  • 解决多Pod并发时小概率发生的cgpu实例ID冲突问题。

20250804

此次升级不会对存量业务造成影响。

202507

版本号

变更内容

变更时间

变更影响

1.12.7

  • cGPU1.5.19版本。

  • gpushare-device-plugin修复了启动时因调用NVML失败而无法重试的问题。

20250717

此次升级不会对存量业务造成影响。

1.12.6

cGPU 1.5.19版本更新内容:

  • 支持Alibaba Cloud Linux 3容器优化版本操作系统镜像。

  • 支持policy5 通过time slice的方式修改算力分配。

  • 修复 cgroup V2下创建多卡Pod失败的问题。

  • ebmgn9t 支持算力分配(policy0-4)。

20250716

此次升级不会对存量业务造成影响。

202506

版本号

变更内容

变更时间

变更影响

1.12.5

  • cGPU1.5.18版本。

  • 修复部分场景下cGPU节点上首个GPU Pod启动失败的问题。

20250623

此次升级不会对存量业务造成影响。

1.12.4

  • cGPU1.5.17版本,支持vLLM 0.6.6及以下版本。

  • cgpu-installer支持在CentOS 7 和Alibaba Cloud Linux 2上安装。

20250619

此次升级不会对存量业务造成影响。

202505

版本号

变更内容

变更时间

变更影响

1.12.3

  • cGPU1.5.16版本。

  • cgpu-installer添加安装重试功能。

20250514

此次升级不会对存量业务造成影响。

202503

版本号

变更内容

变更时间

变更影响

1.12.2

  • cGPU1.5.15版本。

  • cgpu-installer添加节点亲和性,避免将其调度到灵骏节点。

20250317

此次升级不会对存量业务造成影响。

202502

版本号

变更内容

变更时间

变更影响

1.12.1

  • cGPU1.5.15版本。

  • 增加gpushare-device-plugin节点资源健康检查能力。

20250218

此次升级不会对存量业务造成影响。

202501

版本号

变更内容

变更时间

变更影响

1.12.0

  • 发布cGPU 1.5.15版本,支持cGPU容器化安装。

  • 收敛cgpu-installer容器privileged权限。

  • 增加在cGPU安装前做precheck校验。precheck失败会报CGPUInstallFailedkubernetes event。

  • 自该版本起,ack-ai-installer组件仅支持1.20及以上集群版本。

20250103

此次升级不会对存量业务造成影响。

202411

版本号

变更内容

变更时间

变更影响

1.11.1

发布cGPU 1.5.13版本,修复容器残留进程可能导致的小概率内核崩溃。

20241119

此次升级不会对存量业务造成影响。

1.10.1

发布cGPU 1.5.12版本,修复535等新版本驱动部分CUDA API显存隔离失败的问题。

20241107

此次升级不会对存量业务造成影响。

202409

版本号

变更内容

变更时间

变更影响

1.9.16

  • cGPU1.5.11版本。

  • 修改cGPU安装流程到init-container中。

20240926

此次升级不会对存量业务造成影响。

1.9.15

发布cGPU 1.5.11版本,修复解码相关问题。

20240919

此次升级不会对存量业务造成影响。

202408

版本号

变更内容

变更时间

变更影响

1.9.14

  • 修复了一些MPS Daemon使用的问题。

  • 发布cGPU 1.5.10版本,增加了Policy 6用以做算力和显存的等比例切分。

20240821

此次升级不会对存量业务造成影响。

1.9.14

发布cGPU 1.5.9版本,增加了policy 6用以做算力和显存的等比例切分

20240813

此次升级不会对存量业务造成影响。

202405

版本号

变更内容

变更时间

变更影响

1.9.11

发布cGPU 1.5.7版本,支持L系列GPU550+版本GPU驱动。

20240514

此次升级不会对存量业务造成影响。

1.9.10

发布cGPU 1.5.7版本,修复cgpu policy set无效的问题。

20240509

此次升级不会对存量业务造成影响。

202401

版本号

变更内容

变更时间

变更影响

1.8.8

发布cGPU 1.5.6版本,发布了新的cGPU License Server策略。

20240104

此次升级不会对存量业务造成影响。

202312

版本号

变更内容

变更时间

变更影响

1.8.7

  • cGPU1.5.5版本。

  • 支持MPS的共享GPU调度。

20231220

此次升级不会对存量业务造成影响。

202311

版本号

变更内容

变更时间

变更影响

1.8.5

发布cGPU 1.5.5版本,修复cgpu-procfs触发的Kernel Panic问题。

20231123

此次升级不会对存量业务造成影响。

202308

版本号

变更内容

变更时间

变更影响

1.8.2

  • cGPU1.5.3版本。

  • 支持动态MIG切分的能力。

  • 修复device-plugin-recover反复重启问题。

20230829

此次升级不会对存量业务造成影响。

202307

版本号

变更内容

变更时间

变更影响

1.7.7

  • 发布cGPU 1.5.3版本,

  • 修复nvidia-container-toolkitnvidia-container-runtime-hook软连接错乱的问题。

  • 修复不兼容高版本驱动(470.182.03 、515.105.01、525.105.17及其之后发布的版本的驱动)的问题。

20230704

此次升级不会对存量业务造成影响。

202304

版本号

变更内容

变更时间

变更影响

1.7.6

  • 发布cGPU 1.5.2版本,修复systemd cgroup权限错乱问题。

  • 解决cGPU5XX以上驱动的兼容支持问题。

  • 解决cGPUnvidia-container-runtime 1.10以上版本的支持问题。

  • 修复cGPU 1.5.1版本在containerd上的支持问题。

20230426

此次升级不会对存量业务造成影响。

1.7.5

发布cGPU 1.5.2版本。

20230418

此次升级不会对存量业务造成影响。