PAI-PPU-V1.4.1 官方镜像 Release Note

更新时间:
复制为 MD 格式

1.镜像概述

为方便您快速在PAI Serverless上启用ml.gp7vf.16.40xlarge资源(真武810E),PPU发布了PAI Serverless官方镜像,其集成了PPU、高网、PAI等各层能力,提供开箱即用的体验和最优的性能表现。

2.注意事项

  • 本镜像仅面向受邀客户开放,使用过程中请务必履行保密义务。

  • PAI-PPU训练镜像仅支持在PAI Serverless平台内(包含DSW、DLC、EAS等模块)使用。

  • PAI-PPU推理镜像仅支持在PAI Serverless-EAS中使用,不支持其他环境。

  • PAI中使用PPU系列资源,支持选择驱动设置。本PAI-PPU-V1.4.1镜像推荐使用1.4.1版本驱动。

image.png

3.主要更新

  • 更新PPU SDK1.4.1版本,详情请参见附录1:PG1 SDK核心升级内容

  • 更新ACCL-P1.4.0-7版本,详情请参见附录2:ACCL-P核心升级内容

  • 为支持更灵活的场景,升级了通用训练镜像的基础环境版本:

    • 增加对Ubuntu 22.04操作系统的支持。

    • 增加支持的Pytorch版本,同时支持Pytorch 2.4.02.5.1。

  • 为方便使用,我们精简了自动驾驶训练场景镜像,收敛到mmcv 1.7.2+mmdet3d 0.17.2,但支持更加灵活的pip包安装方式构建其他版本的训练环境。

  • 推理场景下,支持的PAI-Bladellm版本升级到0.9.1rc3vllm版本升级到0.6.4post1。

  • 此版本暂不提供Legacy场景镜像。

4.镜像内容

4.1 训练镜像

4.1.1 自动驾驶模型训练场景

自动驾驶训练镜像

适用场景

适用于大部分自动驾驶模型训练场景

操作系统

Ubuntu 22.04

PPU SDK版本

1.4.1

通信库版本

ACCL-P 1.4.0-7

兼容CUDA版本

12.3

Python版本

3.10

Pytorch版本

2.4.0

Open-MMLab组件版本

  • mmcv 1.7.2

  • mmdet 2.26.0

  • mmdet3d 0.17.2

  • mmsegmentation 0.30.0

  • mmcls 0.25.0

其他组件版本

  • accelerate 1.2.1

  • deepspeed 0.14.4

  • detectron2 0.6

  • flash-attn 2.5.6

  • numpy 1.23.5

  • nuscenes-devkit 1.1.11

  • opencv-python 4.10.0.84

  • timm 0.9.7

  • tokenizers 0.20.3

  • torchaudio 2.4.0

  • torchdata 0.8.0

  • torchtext 0.18.0

  • torchvision 0.19.0

  • transformer-engine 1.11.0

  • transformers 4.46.2

  • vllm 0.6.0

  • xformers 0.0.27

获取方式

获取方式

重要提示:此版本默认安装mmcv 1.7.2+mmdet3d 0.17.2,其他Open-MMLab组件版本可通过下列方式安装:

安装方式

mmcv 1.7.2

pip install https://pai-vision-data-wlcb.oss-cn-wulanchabu.aliyuncs.com/public/pkgs/sdk1.4.1/mmcv_full-1.7.2-cp310-cp310-linux_x86_64.whl

mmcv 2.1.0

pip install https://pai-vision-data-wlcb.oss-cn-wulanchabu.aliyuncs.com/public/pkgs/sdk1.4.1/mmcv-2.1.0-cp310-cp310-linux_x86_64.whl

mmdet3d 0.17.2

pip install https://pai-vision-data-wlcb.oss-cn-wulanchabu.aliyuncs.com/public/pkgs/sdk1.4.1/mmdet3d-0.17.2-cp310-cp310-linux_x86_64.whl

mmdet3d 1.0.0rc4

pip install https://pai-vision-data-wlcb.oss-cn-wulanchabu.aliyuncs.com/public/pkgs/sdk1.4.1/mmdet3d-1.0.0rc4-py3-none-any.whl

mmdet3d 1.4.0

pip install https://pai-vision-data-wlcb.oss-cn-wulanchabu.aliyuncs.com/public/pkgs/sdk1.4.1/mmdet3d-1.4.0-py3-none-any.whl

cumm 0.7.11

pip install https://pai-vision-data-wlcb.oss-cn-wulanchabu.aliyuncs.com/public/pkgs/sdk1.4.1/cumm_cu123-0.7.11-cp310-cp310-linux_x86_64.whl

spconv 2.3.8

(需先安装 cumm)

pip install https://pai-vision-data-wlcb.oss-cn-wulanchabu.aliyuncs.com/public/pkgs/sdk1.4.1/spconv_cu123-2.3.8-cp310-cp310-linux_x86_64.whl

open3d 0.18.0

apt install -y xorg-dev libxcb-shm0 libglu1-mesa-dev libc++-dev libc++abi-dev
pip install https://pai-vision-data-wlcb.oss-cn-wulanchabu.aliyuncs.com/public/pkgs/sdk1.4.1/open3d-0.18.0%2B0f06a149c-cp310-cp310-manylinux_2_35_x86_64.whl

4.1.2 通用训练场景

通用训练镜像-AliOS

通用训练镜像-Ubuntu

适用场景

适用于通用场景,使用AliOS国产化操作系统,需要根据具体用途pip install相应组件(pip install需使用镜像内置index)

适用于通用场景,使用Ubuntu 22.04操作系统,需要根据具体用途pip install相应组件(pip install需使用镜像内置index)

操作系统

AliOS 7u2

Ubuntu 22.04

PPU SDK版本

1.4.1

通信库版本

ACCL-P 1.4.0-7

兼容CUDA版本

12.3

Python版本

3.10

Pytorch版本

2.4.0

2.5.1

2.5.1

Open-MMLab组件版本

其他组件版本

  • torchaudio 2.4.0

  • torchdata 0.8.0

  • torchtext 0.18.0

  • torchvision 0.19.0

  • tokenizers 0.15.2

  • transformers 4.38.0

  • xformers 0.0.27

  • timm 0.9.7

  • opencv-python 4.10.0.84

  • numpy 1.23.5

  • numpy 1.23.5

  • nuscenes-devkit 1.1.11

  • opencv-python 4.10.0.84

  • timm 0.9.7

  • torchaudio 2.5.1

  • torchvision 0.20.1

  • numpy 1.23.5

  • timm 1.0.9

  • tokenizers 0.15.2

  • torchaudio 2.5.1

  • torchvision 0.19.0

  • transformers 4.38.0

获取方式

获取方式

4.1.3 Legacy场景

此版本不包含Legacy场景镜像。

4.2 推理镜像

大模型推理镜像

适用场景

适用于大模型推理场景,支持常用LLM模型

操作系统

AliOS

PPU SDK版本

1.4.1

通信库版本

ACCL-P 1.4.0-7

兼容CUDA版本

12.3

Python版本

3.10

Pytorch版本

2.4

推理引擎版本

bladellm-v0.9.1rc3

已验证模型

Qwen 2.5 / Qwen 2/ Qwen / Llama 3 / Llama 2 / Llama

获取地址

获取方式

重要提示:上述大模型推理镜像仅支持在PAI-EAS中使用PAI-Bladellm推理的场景,其中不包含vllm,也不支持在DSW、DLC中使用。如需使用vllm,建议方式:

  1. 使用“大模型推理镜像”,支持在EAS中使用,启动命令中通过pip安装vllm 0.6.4post1

    pip install vllm==0.6.4.post1+ppu1.4.1.oe -i https://art-pub.eng.t-head.cn/artifactory/api/pypi/ptgai-pypi_ppu_alios_cu123_index/simple/
  2. 使用“通用训练镜像”,可支持在DSW、DLC、EAS中使用,根据使用的操作系统通过pip安装vllm 0.6.4post1:

    1. AliOS 7u2:

      pip install vllm==0.6.4.post1+ppu1.4.1.oe -i https://art-pub.eng.t-head.cn/artifactory/api/pypi/ptgai-pypi_ppu_alios_cu123_index/simple/
    2. Ubuntu 22.04:

      pip install vllm==0.6.4.post1+ppu1.4.1.oe -i https://art-pub.eng.t-head.cn/artifactory/api/pypi/ptgai-pypi_ppu_ubuntu_cu123_index/simple/

5.获取方式

5.1 PAI内直接获取

PAI的工作空间中,切换到镜像界面,可以看到PAI官方镜像列表,即可查看PAI-PPU官方镜像。

image.png

PAI中各子产品中新建实例,例如新建DSW实例,可以选择官方镜像,通过芯片类型即可快速筛选出PAI-PPU官方镜像。

image.png

5.2 镜像地址

说明

以下镜像地址仅限在PAI Serverless中使用其中推理镜像仅支持EAS。

镜像地址

通用训练镜像-AliOS-Pytorch 2.4.0

dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4.1-torch2.4-alios7u2-cuda12.3-py310

通用训练镜像-AliOS-Pytorch 2.5.1

dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4.1-torch2.5.1-alios7u2-cuda12.3-py310

通用训练镜像-Ubuntu-Pytorch 2.4.0

dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4.1-torch2.4-ubuntu22.04-cuda12.3-py310

通用训练镜像-Ubuntu-Pytorch 2.5.1

dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4.1-torch2.5.1-ubuntu22.04-cuda12.3-py310

大模型推理镜像

eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/blade-llm:v0.9.1rc3.dev1-g0f289ae2-xpu-1.4.1

6.已知问题

暂无

7.附录1:PPU SDK核心升级内容

7.1 规格兼容性

兼容PAI-PPU规格

ml.gp7vf.16.40xlarge

兼容KMD版本

建议使用1.4.1

兼容1.3.2

7.2 包含核心组件

组件名称

概要说明

Compiler

PPU 编译器工具链

CUDA SDK Wrapper

CUDA API 兼容库

Acompute

PPU 计算加速库

Acext

PPU 量化加速库

PPU SMI

PPU 设备管理工具

PPU DCGM

PPU 在线监控工具

Asight System

PPU 性能分析工具

Asight Compute

PPU 性能分析工具

PPU GDB

PPU 调试工具

PPU MemCheck

PPU Sanitizer工具

PPU hgobjdump

PPU Device Binary工具

7.2.1 驱动程序核心更新内容

  • 支持texture基本功能;

  • 修复HGGC_AUTO_DISPATCH_BARRIER环境变量打开时hang的问题;

  • 修复v1.4版本SDK搭配v1.4版本之前的老版本KMD驱动时ppu-smi无法显示0号卡进程列表的问题;

7.2.2 加速库核心更新内容

  • acsolver新增接口支持:Xgetrf、Xgetrs、Spotrf、Dpotrf、Spotrs、Dpotrs;

  • 修复 gemm m 超大尺寸导致 grid.y > 65536 时计算正确性问题;

7.2.3 编译器核心更新内容

暂无

7.2.4 PPU-SMI核心更新内容

暂无

7.2.5 DCGM核心更新内容

暂无

7.2.6 Asight System核心更新内容

暂无

8.附录2:ACCL-P核心升级内容

  • 支持PPU SDK 1.4.1