ack-ai-installer组件介绍与变更说明

更新时间:2025-01-03 03:30:13

ack-ai-installer是增强ACK Pro版集群和ACK Edge集群Pro调度能力的Device Plugin(设备插件)的组件集合,支持结合ACK Scheduler(ACK基于Kubernetes Scheduling Framework扩展机制,针对不同任务负载、不同弹性资源的统一调度系统)完成一些针对异构计算资源的复杂调度,包括共享GPU调度、GPU拓扑感知调度等。本文介绍ack-ai-installer组件的基础信息、使用说明和变更记录。

组件介绍

结合ACK Scheduler,ack-ai-installer可以提供共享GPU调度(包括共享隔离能力)、GPU拓扑感知调度等调度能力。ack-ai-installer目前包括如下组件。

gpushare-device-plugincgpu-installer

ACK Pro版集群和ACK Edge集群ProACK Scheduler默认支持独占GPU调度,ack-ai-installer(gpushare-device-plugin)结合ACK Scheduler可以实现共享GPU调度和共享隔离能力。共享GPU调度可以使多个应用程序或进程共享一张GPU卡资源,以提高系统的资源利用率。 在共享GPU调度的基础上,ack-ai-installer(cgpu-installer)还结合了阿里云GPU容器共享技术cGPU,支持GPU显存隔离,使不同的应用程序或进程在GPU内存中相互隔离,避免各个任务之间相互干扰,提高整个系统的性能和效率。同时,ack-ai-installer(cgpu-installer)还支持GPU算力隔离,并提供不同的分配策略(平均、抢占、权重等),可以更精细化地调度和使用GPU的算力资源。关于共享GPU调度与隔离的更多信息,例如安装方式、使用场景等,请参见安装共享GPU调度组件通过共享GPU调度实现算力分配

gputopo-device-plugin

结合ACK Scheduler,ack-ai-installer(gputopo-device-plugin)支持实现GPU拓扑感知调度,在节点的GPU组合中选择具有最优训练速度的组合。关于GPU拓扑感知调度的更多信息,例如安装步骤、使用场景等,请参见GPU拓扑感知调度

使用说明

ack-ai-installer组件仅支持在ACK Pro版集群和ACK Edge集群Pro中通过云原生AI套件控制台页面安装,在ACK灵骏托管版集群中以组件的形式预安装,且集群版本均需为1.18及以上。

变更说明

202501

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

1.12.0

  • 发布cGPU 1.5.15版本,支持cGPU容器化安装。

  • 收敛cgpu-installer容器privileged权限。

  • 增加在cGPU安装前做precheck校验。precheck失败会报CGPUInstallFailedkubernetes event

20250103

此次升级不会对业务造成影响。

202411

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

1.11.1

发布cGPU 1.5.13版本,修复容器残留进程可能导致的小概率内核崩溃。

20241119

此次升级不会对业务造成影响。

1.10.1

发布cGPU 1.5.12版本,修复535等新版本驱动部分CUDA API显存隔离失败的问题。

20241107

此次升级不会对业务造成影响。

202409

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

1.9.16

  • cGPU1.5.11版本。

  • 修改cGPU安装流程到init-container中。

20240926

此次升级不会对业务造成影响。

1.9.15

发布cGPU 1.5.11版本,修复解码相关问题。

20240919

此次升级不会对业务造成影响。

202408

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

1.9.14

  • 修复了一些MPS Daemon使用的问题。

  • 发布cGPU 1.5.10版本,增加了Policy 6用以做算力和显存的等比例切分。

20240821

此次升级不会对业务造成影响。

1.9.14

发布cGPU 1.5.9版本,增加了policy 6用以做算力和显存的等比例切分

20240813

此次升级不会对业务造成影响。

202405

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

1.9.11

发布cGPU 1.5.7版本,支持L系列GPU550+版本GPU驱动。

20240514

此次升级不会对业务造成影响。

1.9.10

发布cGPU 1.5.7版本,修复cgpu policy set无效的问题。

20240509

此次升级不会对业务造成影响。

202401

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

1.8.8

发布cGPU 1.5.6版本,发布了新的cGPU License Server策略。

20240104

此次升级不会对业务造成影响。

202312

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

1.8.7

  • cGPU1.5.5版本。

  • 支持MPS的共享GPU调度。

20231220

此次升级不会对业务造成影响。

202311

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

1.8.5

发布cGPU 1.5.5版本,修复cgpu-procfs触发的Kernel Panic问题。

20231123

此次升级不会对业务造成影响。

202308

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

1.8.2

  • cGPU1.5.3版本。

  • 支持动态MIG切分的能力。

  • 修复device-plugin-recover反复重启问题。

20230829

此次升级不会对业务造成影响。

202307

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

1.7.7

  • 发布cGPU 1.5.3版本,

  • 修复nvidia-container-toolkitnvidia-container-runtime-hook软连接错乱的问题。

  • 修复不兼容高版本驱动(470.182.03 、515.105.01、525.105.17及其之后发布的版本的驱动)的问题。

20230704

此次升级不会对业务造成影响。

202304

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

1.7.6

  • 发布cGPU 1.5.2版本,修复systemd cgroup权限错乱问题。

  • 解决cGPU5XX以上驱动的兼容支持问题。

  • 解决cGPUnvidia-container-runtime 1.10以上版本的支持问题。

  • 修复cGPU 1.5.1版本在containerd上的支持问题。

20230426

此次升级不会对业务造成影响。

1.7.5

发布cGPU 1.5.2版本。

20230418

此次升级不会对业务造成影响。

  • 本页导读 (1)
  • 组件介绍
  • gpushare-device-plugin和cgpu-installer
  • gputopo-device-plugin
  • 使用说明
  • 变更说明
  • 2025年01月
  • 2024年11月
  • 2024年09月
  • 2024年08月
  • 2024年05月
  • 2024年01月
  • 2023年12月
  • 2023年11月
  • 2023年08月
  • 2023年07月
  • 2023年04月