ack-kube-queue

ack-kube-queue是云原生AI套件提供的任务队列组件,主要围绕着Kube Queue任务队列,结合调度器和Quota系统,提供队列管理、优先级调度、使用弹性配额等功能,帮助您优化Kubernetes中的AI/ML工作负载和批处理工作负载的管理效率和调度性能。本文介绍ack-kube-queue组件的基础信息、使用说明和变更记录。

组件介绍

任务调度场景下,例如在AI/ML工作负载和批处理工作负载场景下,当Kubernetes集群中任务类型的工作负载数量较多、Pod数量较多时,调度器的负载性能会受到较大影响,不同用户提交的作业之间也可能会相互干扰。任务队列ack-kube-queue围绕着Kube Queue任务队列提供相关功能,旨在管理Kubernetes中的AI/ML工作负载和批处理工作负载。该组件允许系统管理员使用自定义队列的作业队列管理,以提高队列的灵活性。结合Quota系统,ack-kube-queue自动优化了工作负载和资源配额管理,以便最大化利用集群资源。

使用说明

ack-kube-queue组件仅支持在ACK Pro版集群、ACK Serverless集群Pro版ACK Edge集群Pro版中安装,且集群版本需为1.18及以上。

您可以在部署云原生AI套件时为集群安装ack-kube-queue,也可以为已部署云原生AI套件的集群安装ack-kube-queue。安装完成后,您可以使用ack-kube-queue提供的相关功能,例如开启阻塞队列、严格优先级调度等。关于ack-kube-queue组件的安装和使用,请参见使用任务队列ack-kube-queue

变更说明

2024年01月

版本号

变更内容

变更时间

变更影响

v0.3.4

修复Block模式下删除队头任务时偶尔导致队头阻塞的问题。

2024年01月04日

此次升级不会对业务造成影响。

2023年12月

版本号

变更内容

变更时间

变更影响

v0.3.3

新增通过环境变量设置全局阻塞队列时将会全局刷新所有Queue的阻塞队列模式。

2023年12月26日

此次升级不会对业务造成影响。

2023年09月

版本号

变更内容

变更时间

变更影响

v0.3.1

修复删除QueueUnit时偶尔导致队列错误的问题。

2023年09月13日

此次升级不会对业务造成影响。

v0.3.0

新增对在Queue中透出任务排队序列信息。

2023年09月13日

此次升级不会对业务造成影响。

2023年08月

版本号

变更内容

变更时间

变更影响

v0.2.1

修复Template中的NodeSelector导致在Worker节点上无法调度的问题。

2023年08月31日

此次升级不会对业务造成影响。

v0.2.0

  • 新增支持通过Arena提交MPI Job排队。

  • 新增支持Argo Workflow排队。

  • 新增在ElasticQuotaTree中使用kube-queue/max-jobs作为资源名可以实现对同时出队的Job数量进行限制。

  • 优化队列出队失败时的日志提示。

2023年08月29日

此次升级不会对业务造成影响。

2023年07月

版本号

变更内容

变更时间

变更影响

v0.1.13

修复更新时缺少LastUpdateTime可能导致组件无法工作的问题。

2023年07月26日

此次升级不会对业务造成影响。

v0.1.12

新增队列级别配置队列阻塞功能开关,支持通过将extension中的timeout参数配置成0来关闭重新入队功能。

2023年07月20日

此次升级不会对业务造成影响。

2023年06月

版本号

变更内容

变更时间

变更影响

v0.1.11

新增任务更新时同步更新Queueunit状态。

2023年06月30日

此次升级不会对业务造成影响。

v0.1.10

kube-queue-controller、tf-operator-extension以及pytorch-operator-extension等组件新增支持ARM架构节点。

2023年06月14日

此次升级不会对业务造成影响。

2023年05月

版本号

变更内容

变更时间

变更影响

v0.1.9

新增支持长时间Pending任务重新入队功能以及多队列公平调度。若任务下属的Pod由于拓扑调度约束、亲和性约束、资源碎片等原因长时间无法调度,ack-kube-queue将进行任务回收,让任务进入队列重新调度,避免任务无效占用Quota,提升Quota利用效率。

2023年05月16日

此次升级不会对业务造成影响。

2023年04月

版本号

变更内容

变更时间

变更影响

v0.1.8

新增支持阻塞队列模式以及严格优先级出队功能。更多信息,请参见开启阻塞队列开启严格优先级调度

2023年04月25日

此次升级不会对业务造成影响。

2023年03月

版本号

变更内容

变更时间

变更影响

v0.1.6

修复TFJOB不显示State的问题。

2023年03月15日

此次升级不会对业务造成影响。

2023年02月

版本号

变更内容

变更时间

变更影响

v0.1.5

修复ack-kube-queue偶发的删除任务失败的问题。

2023年02月28日

此次升级不会对业务造成影响。

v0.1.4

修复ack-kube-queue偶发的queueUnit出队后Used信息丢失的问题。

2023年02月14日

此次升级不会对业务造成影响。

2023年01月

版本号

变更内容

变更时间

变更影响

v0.1.3

修复ack-kube-queue偶发的丢失queueUnit的问题。

2023年01月12日

此次升级不会对业务造成影响。

v0.1.2

修复ack-kube-queue偶发的长时间无法出队的问题。

2023年01月12日

此次升级不会对业务造成影响。

v0.1.1

新增支持多队列版本。不同Quota下的任务将进入不同队列排队,避免阻塞。

2023年01月10日

此次升级不会对业务造成影响。

2022年10月

版本号

变更内容

变更时间

变更影响

v0.1.0

新增组件,首次发布。

2022年10月15日

首次发布。