ack-ai-installer是增强ACK Pro版集群和ACK Edge集群Pro版调度能力的Device Plugin(设备插件)的组件集合,支持结合ACK Scheduler(ACK基于Kubernetes Scheduling Framework扩展机制,针对不同任务负载、不同弹性资源的统一调度系统)完成一些针对异构计算资源的复杂调度,包括共享GPU调度、GPU拓扑感知调度等。本文介绍ack-ai-installer组件的基础信息、使用说明和变更记录。
组件介绍
结合ACK Scheduler,ack-ai-installer可以提供共享GPU调度(包括共享隔离能力)、GPU拓扑感知调度等调度能力。ack-ai-installer目前包括如下组件。
gpushare-device-plugin和cgpu-installer
ACK Pro版集群和ACK Edge集群Pro版的ACK Scheduler默认支持独占GPU调度,ack-ai-installer(gpushare-device-plugin)结合ACK Scheduler可以实现共享GPU调度和共享隔离能力。共享GPU调度可以使多个应用程序或进程共享一张GPU卡资源,以提高系统的资源利用率。 在共享GPU调度的基础上,ack-ai-installer(cgpu-installer)还结合了阿里云GPU容器共享技术cGPU,支持GPU显存隔离,使不同的应用程序或进程在GPU内存中相互隔离,避免各个任务之间相互干扰,提高整个系统的性能和效率。同时,ack-ai-installer(cgpu-installer)还支持GPU算力隔离,并提供不同的分配策略(平均、抢占、权重等),可以更精细化地调度和使用GPU的算力资源。关于共享GPU调度与隔离的更多信息,例如安装方式、使用场景等,请参见安装共享GPU调度组件、通过共享GPU调度实现算力分配。
gputopo-device-plugin
结合ACK Scheduler,ack-ai-installer(gputopo-device-plugin)支持实现GPU拓扑感知调度,在节点的GPU组合中选择具有最优训练速度的组合。关于GPU拓扑感知调度的更多信息,例如安装步骤、使用场景等,请参见GPU拓扑感知调度。
使用说明
ack-ai-installer组件仅支持在ACK Pro版集群和ACK Edge集群Pro版中通过云原生AI套件控制台页面安装,在ACK灵骏托管版集群中以组件的形式预安装,且集群版本均需为1.18及以上。
变更说明
2023年12月
版本号 | 变更内容 | 变更时间 | 变更影响 |
1.8.7 |
| 2023年12月20日 | 此次升级不会对业务造成影响。 |
2023年08月
版本号 | 变更内容 | 变更时间 | 变更影响 |
1.8.2 |
| 2023年08月29日 | 此次升级不会对业务造成影响。 |
2023年04月
版本号 | 变更内容 | 变更时间 | 变更影响 |
1.7.6 |
| 2023年04月26日 | 此次升级不会对业务造成影响。 |