ack-arena

ack-arena组件是云原生AI套件提供的AI作业生命周期管理工具集,对AI生产过程中的主要工作环节进行抽象和标准化操作,以降低底层资源和环境管理的复杂度以及提交和运行AI任务的门槛。本文介绍ack-arena组件的基础信息、使用说明和变更记录。

组件说明

云原生AI套件将数据准备与管理、模型开发构建、模型训练、模型评测、模型推理服务上线运维等AI生产过程的主要工作环节进行抽象,并通过命令行工具Arena来实现管理。Arena完全屏蔽底层资源和环境管理、任务调度、GPU分配和监控的复杂性,且兼容主流AI框架和工具,包括Tensorflow、Pytorch、Horovod、Spark、JupyterLab、TF-Serving、Triton等。Arena还支持Golang、Java、Python SDK,便于您二次开发。

ack-arena组件对开源Arena的操作进行简化,让您可以在容器服务控制台一键安装Arena,快速配置并使用Arena客户端。

使用说明

ack-arena组件仅支持在ACK Pro版集群、ACK Serverless集群Pro以及ACK Edge集群Pro中安装,且集群版本需为1.18及以上。关于ack-arena组件的安装和使用,请参见配置Arena客户端

变更说明

202503

版本号

镜像地址

变更内容

变更时间

变更影响

0.14.2

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.14.2-aliyun-d497232

  • PyTorchJob中的worker podinit-container资源申请的requestslimits设置为相同值

20250310

此次升级不会对业务造成影响。

202502

版本号

镜像地址

变更内容

变更时间

变更影响

0.14.1

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.14.1-aliyun-19abf19

  • 修复device不支持k8s resource quantity问题

  • 修复PyTorchJob不支持backoff limit问题

  • 启用GPU共享调度时将不会设置环境变量NVIDIA_VISIBLE_DEVICES

20250224

此次升级不会对业务造成影响。

202501

版本号

镜像地址

变更内容

变更时间

变更影响

0.13.1

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.13.1-aliyun-ce9c5f3

  • tf-operator支持linux/arm64架构镜像

  • pytorch-operator支持linux/arm64架构镜像

  • cron-operator支持linux/arm64架构镜像

  • et-operator支持linux/arm64架构镜像

20250113

此次升级不会对业务造成影响。

202412

版本号

镜像地址

变更内容

变更时间

变更影响

0.13.0

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.13.0-aliyun-f098f1a

  • PyTorchJob支持torchrun

  • 查询PyTorchJob信息时避免list jobstatefulset操作

20241223

此次升级不会对业务造成影响。

202411

版本号

镜像地址

变更内容

变更时间

变更影响

0.12.0

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.12.0-aliyun.0

  • 支持提交RayJob

  • 支持提交分布式推理作业

20241111

此次升级不会对业务造成影响。

0.12.1

registry-cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.12.1-aliyun.0

  • 提交MPIJob支持通用类型设备

  • tf-operator修复clean pod policy相关问题

  • 修复etjob使用本地logging目录时的渲染问题

  • 修复cron-operator清理作业失败的问题

20241125

此次升级不会对业务造成影响。

202410

版本号

镜像地址

变更内容

变更时间

变更影响

0.10.1

registry-cn-hangzhou.ack.aliyuncs.com/acs/arena-deploy-manager:0.10.1-aliyun.0

  • 支持多种类型设备

  • TFJob支持successPolicy

  • 修复提交SparkApplicationi失败的问题

20241014

此次升级不会对业务造成影响。

202404

版本号

镜像地址

变更内容

变更时间

变更影响

0.9.14

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.14-adb43b8

新增模型管理功能。

20240411

此次升级不会对业务造成影响。

202403

版本号

镜像地址

变更内容

变更时间

变更影响

0.9.13

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.13-5ac396c

  • triton推理服务新增backend参数。

  • 支持更新kserve推理服务挂载目录。

20240318

此次升级不会对业务造成影响。

202402

版本号

镜像地址

变更内容

变更时间

变更影响

0.9.12

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.12-a707f81

  • 更新tritonserver基础镜像。

  • 兼容training-operator CRD。

20240204

此次升级不会对业务造成影响。

202311

版本号

镜像地址

变更内容

变更时间

变更影响

0.9.11

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.11-ce87d10

  • 支持部署KServe推理服务。

  • 推理服务支持设置livenessProbereadinessProbe。

20231117

此次升级不会对业务造成影响。

202308

版本号

镜像地址

变更内容

变更时间

变更影响

0.9.10

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.10-4b5c18c

  • 支持提交etjobdeepspeedjob时创建SSH secret。

  • 默认移除et-operator secret权限,可手动开启。

20230802

此次升级不会对业务造成影响。

202306

版本号

镜像地址

变更内容

变更时间

变更影响

0.9.9

registry.cn-beijing.aliyuncs.com/acs/arena-deploy-manager:0.9.9-ce4a78d

  • 新增训练任务类型DeepSpeed,支持DeepSpeed分布式训练。

  • 支持设置imagePullPolicy。

20230629

此次升级不会对业务造成影响。

202305

版本号

镜像地址

变更内容

变更时间

变更影响

0.9.8

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.7-d51fe2e

  • 新增支持通过SDK配置任务完成清理时间。

  • RBAC权限收敛。

20230523

此次升级不会对业务造成影响。

202304

版本号

镜像地址

变更内容

变更时间

变更影响

0.9.7

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.7-d51fe2e

新增支持为定时任务设置任务完成时间。

20230411

此次升级不会对业务造成影响。

0.9.6

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.6-b3c2c7f

  • 更新et-operator镜像。

  • 创建tfjobpytorchjob时添加ownerReference。

20230404

此次升级不会对业务造成影响。

202303

版本号

镜像地址

变更内容

变更时间

变更影响

0.9.5

registry.cn-hangzhou.aliyuncs.com/acs/arena-deploy-manager:0.9.5-c3948e2

  • Arena提交tfjob时,新增支持running-timeout、starting-timeout、ttl-after-finished。

  • Arena提交pytorchjob时,新增支持running-timeout、ttl-after-finished。

  • 新增支持jobsupervisor charts。

  • 升级JAVA SDK1.0.4版本。

  • 修复gang pod label不规范的问题。

  • 更新tf-operator、pytorch-operator、et-operator镜像。

20230316

此次升级不会对业务造成影响。