ack-ai-installer组件介绍与变更说明

ack-ai-installer是增强ACK Pro版集群和ACK Edge集群Pro版调度能力的Device Plugin(设备插件)的组件集合,支持结合ACK Scheduler(ACK基于Kubernetes Scheduling Framework扩展机制,针对不同任务负载、不同弹性资源的统一调度系统)完成一些针对异构计算资源的复杂调度,包括共享GPU调度、GPU拓扑感知调度等。本文介绍ack-ai-installer组件的基础信息、使用说明和变更记录。

组件介绍

结合ACK Scheduler,ack-ai-installer可以提供共享GPU调度(包括共享隔离能力)、GPU拓扑感知调度等调度能力。ack-ai-installer目前包括如下组件。

gpushare-device-plugin和cgpu-installer

ACK Pro版集群和ACK Edge集群Pro版的ACK Scheduler默认支持独占GPU调度,ack-ai-installer(gpushare-device-plugin)结合ACK Scheduler可以实现共享GPU调度和共享隔离能力。共享GPU调度可以使多个应用程序或进程共享一张GPU卡资源,以提高系统的资源利用率。 在共享GPU调度的基础上,ack-ai-installer(cgpu-installer)还结合了阿里云GPU容器共享技术cGPU,支持GPU显存隔离,使不同的应用程序或进程在GPU内存中相互隔离,避免各个任务之间相互干扰,提高整个系统的性能和效率。同时,ack-ai-installer(cgpu-installer)还支持GPU算力隔离,并提供不同的分配策略(平均、抢占、权重等),可以更精细化地调度和使用GPU的算力资源。关于共享GPU调度与隔离的更多信息,例如安装方式、使用场景等,请参见安装共享GPU调度组件通过共享GPU调度实现算力分配

gputopo-device-plugin

结合ACK Scheduler,ack-ai-installer(gputopo-device-plugin)支持实现GPU拓扑感知调度,在节点的GPU组合中选择具有最优训练速度的组合。关于GPU拓扑感知调度的更多信息,例如安装步骤、使用场景等,请参见GPU拓扑感知调度

使用说明

ack-ai-installer组件仅支持在ACK Pro版集群和ACK Edge集群Pro版中通过云原生AI套件控制台页面安装,在ACK灵骏托管版集群中以组件的形式预安装,且集群版本均需为1.18及以上。

变更说明

2023年12月

版本号

变更内容

变更时间

变更影响

1.8.7

  • 支持MPS的共享GPU调度。

  • cGPU升级到1.5.5的版本。

2023年12月20日

此次升级不会对业务造成影响。

2023年08月

版本号

变更内容

变更时间

变更影响

1.8.2

  • 支持动态MIG切分的能力。

  • 修复device-plugin-recover反复重启问题。

  • cGPU升级到1.5.3的版本。

2023年08月29日

此次升级不会对业务造成影响。

2023年04月

版本号

变更内容

变更时间

变更影响

1.7.6

  • 升级cGPU版本到1.5.2。

  • 解决cGPU在5XX以上驱动的兼容支持问题。

  • 解决cGPU对nvidia-container-runtime 1.10以上版本的支持问题。

  • 修复cGPU 1.5.1版本在containerd上的支持问题。

2023年04月26日

此次升级不会对业务造成影响。