ack-ai-installer组件介绍与变更说明

ack-ai-installer是增强ACK Pro版集群和ACK Edge集群Pro调度能力的Device Plugin(设备插件)的组件集合,支持结合ACK Scheduler(ACK基于Kubernetes Scheduling Framework扩展机制,针对不同任务负载、不同弹性资源的统一调度系统)完成一些针对异构计算资源的复杂调度,包括共享GPU调度、GPU拓扑感知调度等。本文介绍ack-ai-installer组件的基础信息、使用说明和变更记录。

组件介绍

结合ACK Scheduler,ack-ai-installer可以提供共享GPU调度(包括共享隔离能力)、GPU拓扑感知调度等调度能力。ack-ai-installer目前包括如下组件。

gpushare-device-plugincgpu-installer

ACK Pro版集群和ACK Edge集群ProACK Scheduler默认支持独占GPU调度,ack-ai-installer(gpushare-device-plugin)结合ACK Scheduler可以实现共享GPU调度和共享隔离能力。共享GPU调度可以使多个应用程序或进程共享一张GPU卡资源,以提高系统的资源利用率。 在共享GPU调度的基础上,ack-ai-installer(cgpu-installer)还结合了阿里云GPU容器共享技术cGPU,支持GPU显存隔离,使不同的应用程序或进程在GPU内存中相互隔离,避免各个任务之间相互干扰,提高整个系统的性能和效率。同时,ack-ai-installer(cgpu-installer)还支持GPU算力隔离,并提供不同的分配策略(平均、抢占、权重等),可以更精细化地调度和使用GPU的算力资源。关于共享GPU调度与隔离的更多信息,例如安装方式、使用场景等,请参见安装共享GPU调度组件通过共享GPU调度实现算力分配

gputopo-device-plugin

结合ACK Scheduler,ack-ai-installer(gputopo-device-plugin)支持实现GPU拓扑感知调度,在节点的GPU组合中选择具有最优训练速度的组合。关于GPU拓扑感知调度的更多信息,例如安装步骤、使用场景等,请参见GPU拓扑感知调度

使用说明

ack-ai-installer组件仅支持在ACK Pro版集群和ACK Edge集群Pro中通过云原生AI套件控制台页面安装,在ACK灵骏托管版集群中以组件的形式预安装,且集群版本均需为1.18及以上。

变更说明

202501

版本号

变更内容

变更时间

变更影响

1.12.0

  • 发布cGPU 1.5.15版本,支持cGPU容器化安装。

  • 收敛cgpu-installer容器privileged权限。

  • 增加在cGPU安装前做precheck校验。precheck失败会报CGPUInstallFailedkubernetes event

20250103

此次升级不会对业务造成影响。

202411

版本号

变更内容

变更时间

变更影响

1.11.1

发布cGPU 1.5.13版本,修复容器残留进程可能导致的小概率内核崩溃。

20241119

此次升级不会对业务造成影响。

1.10.1

发布cGPU 1.5.12版本,修复535等新版本驱动部分CUDA API显存隔离失败的问题。

20241107

此次升级不会对业务造成影响。

202409

版本号

变更内容

变更时间

变更影响

1.9.16

  • cGPU1.5.11版本。

  • 修改cGPU安装流程到init-container中。

20240926

此次升级不会对业务造成影响。

1.9.15

发布cGPU 1.5.11版本,修复解码相关问题。

20240919

此次升级不会对业务造成影响。

202408

版本号

变更内容

变更时间

变更影响

1.9.14

  • 修复了一些MPS Daemon使用的问题。

  • 发布cGPU 1.5.10版本,增加了Policy 6用以做算力和显存的等比例切分。

20240821

此次升级不会对业务造成影响。

1.9.14

发布cGPU 1.5.9版本,增加了policy 6用以做算力和显存的等比例切分

20240813

此次升级不会对业务造成影响。

202405

版本号

变更内容

变更时间

变更影响

1.9.11

发布cGPU 1.5.7版本,支持L系列GPU550+版本GPU驱动。

20240514

此次升级不会对业务造成影响。

1.9.10

发布cGPU 1.5.7版本,修复cgpu policy set无效的问题。

20240509

此次升级不会对业务造成影响。

202401

版本号

变更内容

变更时间

变更影响

1.8.8

发布cGPU 1.5.6版本,发布了新的cGPU License Server策略。

20240104

此次升级不会对业务造成影响。

202312

版本号

变更内容

变更时间

变更影响

1.8.7

  • cGPU1.5.5版本。

  • 支持MPS的共享GPU调度。

20231220

此次升级不会对业务造成影响。

202311

版本号

变更内容

变更时间

变更影响

1.8.5

发布cGPU 1.5.5版本,修复cgpu-procfs触发的Kernel Panic问题。

20231123

此次升级不会对业务造成影响。

202308

版本号

变更内容

变更时间

变更影响

1.8.2

  • cGPU1.5.3版本。

  • 支持动态MIG切分的能力。

  • 修复device-plugin-recover反复重启问题。

20230829

此次升级不会对业务造成影响。

202307

版本号

变更内容

变更时间

变更影响

1.7.7

  • 发布cGPU 1.5.3版本,

  • 修复nvidia-container-toolkitnvidia-container-runtime-hook软连接错乱的问题。

  • 修复不兼容高版本驱动(470.182.03 、515.105.01、525.105.17及其之后发布的版本的驱动)的问题。

20230704

此次升级不会对业务造成影响。

202304

版本号

变更内容

变更时间

变更影响

1.7.6

  • 发布cGPU 1.5.2版本,修复systemd cgroup权限错乱问题。

  • 解决cGPU5XX以上驱动的兼容支持问题。

  • 解决cGPUnvidia-container-runtime 1.10以上版本的支持问题。

  • 修复cGPU 1.5.1版本在containerd上的支持问题。

20230426

此次升级不会对业务造成影响。

1.7.5

发布cGPU 1.5.2版本。

20230418

此次升级不会对业务造成影响。