ack-ai-installer组件介绍与变更说明

ack-cgpuACK专有集群上支持共享GPU调度能力的组件,通过GPU共享调度框架,实现多个容器共享同一GPU设备,进而降低使用成本。本文介绍ack-cgpu变更记录。

使用说明

  • ack-cgpu组件仅支持在ACK专有集群中通过应用市场控制台页面安装。

  • 支持1.18.8及以上集群版本。

变更说明

202508

组件版本号

变更时间

变更内容

变更影响

1.7.0

20250820

cGPU 1.5.20版本更新内容:

  • 修复缺陷:

    解决多Pod并发时小概率发生的cgpu实例ID冲突问题。

此次升级不会对存量业务造成影响。

202507

组件版本号

变更时间

变更内容

变更影响

1.6.0

20250724

cGPU 1.5.12版本更新内容:

  • 修复缺陷:

    修复535+等新版本驱动部分CUDA API显存隔离失败的问题。

此次升级不会对存量业务造成影响。

202411

组件版本号

变更时间

变更内容

变更影响

1.5.2

20241105

cGPU 1.5.9版本更新内容:

  • 适配ebmgn8ia (AMD+L20)。

  • 支持cgroup v2,开始支持ubuntu22.04 。

此次升级不会对存量业务造成影响。

202406

组件版本号

变更时间

变更内容

变更影响

1.5.1

20240607

cGPU 1.5.7版本更新内容:

  • 支持gn8X规格(L20、H20)。

  • 支持nvidia driver 550+ 以上版本。

  • fix destroy node 后,vm kernel panic 问题。

此次升级不会对存量业务造成影响。

202211

组件版本号

变更时间

变更内容

变更影响

1.4.2

20221118

cGPU 1.0.9版本更新内容:

  • 调整uvm设备的支持。

  • 调整安装脚本中wrappercgpu加载的顺序: cgpu加载过程中会阻塞ACK管理Pod的启动。

此次升级不会对存量业务造成影响。

1.4.1

20221117

  • cGPU 1.0.7版本。

  • gpushare-device:支持标签gpushare=true,开启仅共享不隔离的操作。

此次升级不会对存量业务造成影响。

1.4.0

20221107

  • cGPU 1.0.7版本。

  • gpushare-device:修复1.24集群无法安装ack-cgpu。

此次升级不会对存量业务造成影响

1.3.1

20221101

  • cGPU 1.0.7版本。

  • gpushare-device:

    • 修复共享GPU调度因ECS重启导致GPU UUID丢失,应用Pod无法启动问题。

    • 添加cgpupolicy环境变量的设置。

此次升级不会对存量业务造成影响。

202205

组件版本号

变更时间

变更内容

变更影响

1.3.0

20220506

cGPU 1.0.7版本更新内容:

  • 增加支持乌兰察布、广州、成都等地区。

此次升级不会对存量业务造成影响。

202203

组件版本号

变更时间

变更内容

变更影响

1.2.1

20220323

cGPU 1.0.6版本更新内容:

  • 解决显存隔离残留相关的问题,表现是显存设置失败后未重新刷新,设置成默认8G。

  • 解决多进程omm后,显存错乱等问题。

此次升级不会对存量业务造成影响。

1.2.0

20220311

cGPU 1.0.3版本更新内容:

  • 支持kernel 5.1 以上版本的编译安装,支持alibaba cloud linux 3.2版本。

  • 修复多进程情况下,显存显示不准确。

  • 新增 gn7系列实例规格,适配cuda 11 和nvidia driver 460 以上版本(A10、A100、A800、3090)。

  • 修复cuda 11.4 和nvidia driver 470 以上版本 cGPU 显存划分的问题。

  • 新增policy3,支持指定算力,比如50%,30%等,最小粒度5%,误差+-5%。

此次升级不会对存量业务造成影响。

202112

组件版本号

变更时间

变更内容

变更影响

1.1.2

20211227

cGPU 0.8.13版本更新内容:

  • 适配nvidia driver 450 以上版本。

  • 公有云已有地域集群支持。

此次升级不会对存量业务造成影响。

202101

组件版本号

变更时间

变更内容

变更影响

1.0.0

20210118

cGPU 0.8.8版本更新内容:

  • 第一次版本发布,支持gn6i、gn6v、gn6e、gn5i、gn5 等实例(T4、V100、P4、P100、2080TI)。

  • 支持地域:华东1、华东2、华北2。

此次升级不会对存量业务造成影响。