ack-kube-queue

更新时间:2024-01-08 02:18:28

ack-kube-queue是云原生AI套件提供的任务队列组件,主要围绕着Kube Queue任务队列,结合调度器和Quota系统,提供队列管理、优先级调度、使用弹性配额等功能,帮助您优化Kubernetes中的AI/ML工作负载和批处理工作负载的管理效率和调度性能。本文介绍ack-kube-queue组件的基础信息、使用说明和变更记录。

组件介绍

任务调度场景下,例如在AI/ML工作负载和批处理工作负载场景下,当Kubernetes集群中任务类型的工作负载数量较多、Pod数量较多时,调度器的负载性能会受到较大影响,不同用户提交的作业之间也可能会相互干扰。任务队列ack-kube-queue围绕着Kube Queue任务队列提供相关功能,旨在管理Kubernetes中的AI/ML工作负载和批处理工作负载。该组件允许系统管理员使用自定义队列的作业队列管理,以提高队列的灵活性。结合Quota系统,ack-kube-queue自动优化了工作负载和资源配额管理,以便最大化利用集群资源。

使用说明

ack-kube-queue组件仅支持在ACK Pro版集群、ACK Serverless集群ProACK Edge集群Pro中安装,且集群版本需为1.18及以上。

您可以在部署云原生AI套件时为集群安装ack-kube-queue,也可以为已部署云原生AI套件的集群安装ack-kube-queue。安装完成后,您可以使用ack-kube-queue提供的相关功能,例如开启阻塞队列、严格优先级调度等。关于ack-kube-queue组件的安装和使用,请参见使用任务队列ack-kube-queue

变更说明

202401

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

v0.3.4

修复Block模式下删除队头任务时偶尔导致队头阻塞的问题。

20240104

此次升级不会对业务造成影响。

202312

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

v0.3.3

新增通过环境变量设置全局阻塞队列时将会全局刷新所有Queue的阻塞队列模式。

20231226

此次升级不会对业务造成影响。

202309

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

v0.3.1

修复删除QueueUnit时偶尔导致队列错误的问题。

20230913

此次升级不会对业务造成影响。

v0.3.0

新增对在Queue中透出任务排队序列信息。

20230913

此次升级不会对业务造成影响。

202308

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

v0.2.1

修复Template中的NodeSelector导致在Worker节点上无法调度的问题。

20230831

此次升级不会对业务造成影响。

v0.2.0

  • 新增支持通过Arena提交MPI Job排队。

  • 新增支持Argo Workflow排队。

  • 新增在ElasticQuotaTree中使用kube-queue/max-jobs作为资源名可以实现对同时出队的Job数量进行限制。

  • 优化队列出队失败时的日志提示。

20230829

此次升级不会对业务造成影响。

202307

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

v0.1.13

修复更新时缺少LastUpdateTime可能导致组件无法工作的问题。

20230726

此次升级不会对业务造成影响。

v0.1.12

新增队列级别配置队列阻塞功能开关,支持通过将extension中的timeout参数配置成0来关闭重新入队功能。

20230720

此次升级不会对业务造成影响。

202306

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

v0.1.11

新增任务更新时同步更新Queueunit状态。

20230630

此次升级不会对业务造成影响。

v0.1.10

kube-queue-controller、tf-operator-extension以及pytorch-operator-extension等组件新增支持ARM架构节点。

20230614

此次升级不会对业务造成影响。

202305

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

v0.1.9

新增支持长时间Pending任务重新入队功能以及多队列公平调度。若任务下属的Pod由于拓扑调度约束、亲和性约束、资源碎片等原因长时间无法调度,ack-kube-queue将进行任务回收,让任务进入队列重新调度,避免任务无效占用Quota,提升Quota利用效率。

20230516

此次升级不会对业务造成影响。

202304

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

v0.1.8

新增支持阻塞队列模式以及严格优先级出队功能。更多信息,请参见开启阻塞队列开启严格优先级调度

20230425

此次升级不会对业务造成影响。

202303

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

v0.1.6

修复TFJOB不显示State的问题。

20230315

此次升级不会对业务造成影响。

202302

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

v0.1.5

修复ack-kube-queue偶发的删除任务失败的问题。

20230228

此次升级不会对业务造成影响。

v0.1.4

修复ack-kube-queue偶发的queueUnit出队后Used信息丢失的问题。

20230214

此次升级不会对业务造成影响。

202301

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

v0.1.3

修复ack-kube-queue偶发的丢失queueUnit的问题。

20230112

此次升级不会对业务造成影响。

v0.1.2

修复ack-kube-queue偶发的长时间无法出队的问题。

20230112

此次升级不会对业务造成影响。

v0.1.1

新增支持多队列版本。不同Quota下的任务将进入不同队列排队,避免阻塞。

20230110

此次升级不会对业务造成影响。

202210

版本号

变更内容

变更时间

变更影响

版本号

变更内容

变更时间

变更影响

v0.1.0

新增组件,首次发布。

20221015

首次发布。

  • 本页导读 (1)
  • 组件介绍
  • 使用说明
  • 变更说明
  • 2024年01月
  • 2023年12月
  • 2023年09月
  • 2023年08月
  • 2023年07月
  • 2023年06月
  • 2023年05月
  • 2023年04月
  • 2023年03月
  • 2023年02月
  • 2023年01月
  • 2022年10月
AI助理

点击开启售前

在线咨询服务

你好,我是AI助理

可以解答问题、推荐解决方案等