ack-kube-queue是云原生AI套件提供的任务队列组件,主要围绕着Kube Queue任务队列,结合调度器和Quota系统,提供队列管理、优先级调度、使用弹性配额等功能,帮助您优化Kubernetes中的AI/ML工作负载和批处理工作负载的管理效率和调度性能。本文介绍ack-kube-queue组件的基础信息、使用说明和变更记录。
组件介绍
任务调度场景下,例如在AI/ML工作负载和批处理工作负载场景下,当Kubernetes集群中任务类型的工作负载数量较多、Pod数量较多时,调度器的负载性能会受到较大影响,不同用户提交的作业之间也可能会相互干扰。任务队列ack-kube-queue围绕着Kube Queue任务队列提供相关功能,旨在管理Kubernetes中的AI/ML工作负载和批处理工作负载。该组件允许系统管理员使用自定义队列的作业队列管理,以提高队列的灵活性。结合Quota系统,ack-kube-queue自动优化了工作负载和资源配额管理,以便最大化利用集群资源。
使用说明
ack-kube-queue组件仅支持在ACK Pro版集群、ACK Serverless集群Pro版、ACK Edge集群Pro版中安装,且集群版本需为1.18及以上。
您可以在部署云原生AI套件时为集群安装ack-kube-queue,也可以为已部署云原生AI套件的集群安装ack-kube-queue。安装完成后,您可以使用ack-kube-queue提供的相关功能,例如开启阻塞队列、严格优先级调度等。关于ack-kube-queue组件的安装和使用,请参见使用任务队列ack-kube-queue。
变更说明
2024年01月
版本号 | 变更内容 | 变更时间 | 变更影响 |
v0.3.4 | 修复Block模式下删除队头任务时偶尔导致队头阻塞的问题。 | 2024年01月04日 | 此次升级不会对业务造成影响。 |
2023年12月
版本号 | 变更内容 | 变更时间 | 变更影响 |
v0.3.3 | 新增通过环境变量设置全局阻塞队列时将会全局刷新所有Queue的阻塞队列模式。 | 2023年12月26日 | 此次升级不会对业务造成影响。 |
2023年09月
版本号 | 变更内容 | 变更时间 | 变更影响 |
v0.3.1 | 修复删除QueueUnit时偶尔导致队列错误的问题。 | 2023年09月13日 | 此次升级不会对业务造成影响。 |
v0.3.0 | 新增对在Queue中透出任务排队序列信息。 | 2023年09月13日 | 此次升级不会对业务造成影响。 |
2023年08月
版本号 | 变更内容 | 变更时间 | 变更影响 |
v0.2.1 | 修复Template中的NodeSelector导致在Worker节点上无法调度的问题。 | 2023年08月31日 | 此次升级不会对业务造成影响。 |
v0.2.0 |
| 2023年08月29日 | 此次升级不会对业务造成影响。 |
2023年07月
版本号 | 变更内容 | 变更时间 | 变更影响 |
v0.1.13 | 修复更新时缺少LastUpdateTime可能导致组件无法工作的问题。 | 2023年07月26日 | 此次升级不会对业务造成影响。 |
v0.1.12 | 新增队列级别配置队列阻塞功能开关,支持通过将extension中的timeout参数配置成0来关闭重新入队功能。 | 2023年07月20日 | 此次升级不会对业务造成影响。 |
2023年06月
版本号 | 变更内容 | 变更时间 | 变更影响 |
v0.1.11 | 新增任务更新时同步更新Queueunit状态。 | 2023年06月30日 | 此次升级不会对业务造成影响。 |
v0.1.10 | kube-queue-controller、tf-operator-extension以及pytorch-operator-extension等组件新增支持ARM架构节点。 | 2023年06月14日 | 此次升级不会对业务造成影响。 |
2023年05月
版本号 | 变更内容 | 变更时间 | 变更影响 |
v0.1.9 | 新增支持长时间Pending任务重新入队功能以及多队列公平调度。若任务下属的Pod由于拓扑调度约束、亲和性约束、资源碎片等原因长时间无法调度,ack-kube-queue将进行任务回收,让任务进入队列重新调度,避免任务无效占用Quota,提升Quota利用效率。 | 2023年05月16日 | 此次升级不会对业务造成影响。 |
2023年04月
版本号 | 变更内容 | 变更时间 | 变更影响 |
v0.1.8 | 2023年04月25日 | 此次升级不会对业务造成影响。 |
2023年03月
版本号 | 变更内容 | 变更时间 | 变更影响 |
v0.1.6 | 修复TFJOB不显示State的问题。 | 2023年03月15日 | 此次升级不会对业务造成影响。 |
2023年02月
版本号 | 变更内容 | 变更时间 | 变更影响 |
v0.1.5 | 修复ack-kube-queue偶发的删除任务失败的问题。 | 2023年02月28日 | 此次升级不会对业务造成影响。 |
v0.1.4 | 修复ack-kube-queue偶发的queueUnit出队后Used信息丢失的问题。 | 2023年02月14日 | 此次升级不会对业务造成影响。 |
2023年01月
版本号 | 变更内容 | 变更时间 | 变更影响 |
v0.1.3 | 修复ack-kube-queue偶发的丢失queueUnit的问题。 | 2023年01月12日 | 此次升级不会对业务造成影响。 |
v0.1.2 | 修复ack-kube-queue偶发的长时间无法出队的问题。 | 2023年01月12日 | 此次升级不会对业务造成影响。 |
v0.1.1 | 新增支持多队列版本。不同Quota下的任务将进入不同队列排队,避免阻塞。 | 2023年01月10日 | 此次升级不会对业务造成影响。 |
2022年10月
版本号 | 变更内容 | 变更时间 | 变更影响 |
v0.1.0 | 新增组件,首次发布。 | 2022年10月15日 | 首次发布。 |