PAI-PPU-V1.4.2 官方镜像 Release Note

更新时间:
复制为 MD 格式

1. 镜像概述

为方便您快速在PAI Serverless上启用ml.gp7vf.16.40xlarge资源(真武810E),PPU发布了PAI Serverless官方镜像,其集成了PPU、高网、PAI等各层能力,提供开箱即用的体验和最优的性能表现。

2. 注意事项

  • 本镜像仅面向受邀客户开放,使用过程中请务必履行保密义务。

  • PAI-PPU训练镜像仅支持在PAI Serverless平台内(包含DSW、DLC、EAS等模块)使用。

  • PAI-PPU推理镜像仅支持在PAI Serverless-EAS中使用,不支持其他环境。

  • PAI中使用PPU系列资源,支持选择“驱动设置”。本PAI-PPU-V1.4.2镜像推荐使用1.4.2版本驱动。

3. 主要更新

  • 更新PPU SDK1.4.2版本,详情请参见附录:PG1 SDK核心升级内容

  • ACCL-P未做更新,保留至1.4.0-7版本。

  • 为满足DeepSeek-R1/V3系列模型的推理部署需求,发布集成了vLLM 0.7.2、SGLang 0.4.2的推理镜像。

  • 通用训练镜像更新至CUDA 12.6 + PyTorch 2.5.1的组合。

  • 此版本暂不提供Legacy训练镜像和BladeLLM推理镜像。

4. 镜像内容

4.1 训练镜像

pai-pg1-training-1.4.2-ubuntu

pai-pg1-training-1.4.2-alios

pai-pg1-training-1.4.2-ubuntu-latest

适用场景

Ubuntu操作系统

AliOS操作系统

Ubuntu操作系统+CUDA12.6+PyTorch2.5.1

操作系统

Ubuntu 22.04

AliOS 7u2

Ubuntu 22.04

PPU SDK版本

1.4.2

1.4.2

1.4.2

通信库版本

ACCL-P 1.4.0-7

ACCL-P 1.4.0-7

ACCL-P 1.4.0-7

兼容CUDA版本

12.3

12.3

12.6

Python版本

3.10

3.10

3.10

Pytorch版本

2.4.0

2.4.0

2.5.1

Open-MMLab组件版本

  • mmcv 1.7.2

  • mmdet 2.26.0

  • mmdet3d 0.17.2

  • mmsegmentation 0.30.0

  • mmcls 0.25.0

获取方式

获取方式

获取方式

获取方式

重要提示:此版本默认安装mmcv 1.7.2+mmdet3d 0.17.2,其他Open-MMLab组件版本可通过下列方式安装:

安装方式

mmcv 1.7.2

pip install https://pai-vision-data-wlcb.oss-cn-wulanchabu.aliyuncs.com/public/pkgs/sdk1.4.1/mmcv_full-1.7.2-cp310-cp310-linux_x86_64.whlinstall

mmcv 2.1.0

pip install https://pai-vision-data-wlcb.oss-cn-wulanchabu.aliyuncs.com/public/pkgs/sdk1.4.1/mmcv-2.1.0-cp310-cp310-linux_x86_64.whl

mmdet3d 0.17.2

pip install https://pai-vision-data-wlcb.oss-cn-wulanchabu.aliyuncs.com/public/pkgs/sdk1.4.1/mmdet3d-0.17.2-cp310-cp310-linux_x86_64.whl

mmdet3d 1.0.0rc4

pip install https://pai-vision-data-wlcb.oss-cn-wulanchabu.aliyuncs.com/public/pkgs/sdk1.4.1/mmdet3d-1.0.0rc4-py3-none-any.whl

mmdet3d 1.4.0

pip install https://pai-vision-data-wlcb.oss-cn-wulanchabu.aliyuncs.com/public/pkgs/sdk1.4.1/mmdet3d-1.4.0-py3-none-any.whl

cumm 0.7.11

pip install https://pai-vision-data-wlcb.oss-cn-wulanchabu.aliyuncs.com/public/pkgs/sdk1.4.1/cumm_cu123-0.7.11-cp310-cp310-linux_x86_64.whl

spconv 2.3.8

(需先安装 cumm)

pip install https://pai-vision-data-wlcb.oss-cn-wulanchabu.aliyuncs.com/public/pkgs/sdk1.4.1/spconv_cu123-2.3.8-cp310-cp310-linux_x86_64.whl

open3d 0.18.0

apt install -y xorg-dev libxcb-shm0 libglu1-mesa-dev libc++-dev libc++abi-dev
pip install https://pai-vision-data-wlcb.oss-cn-wulanchabu.aliyuncs.com/public/pkgs/sdk1.4.1/open3d-0.18.0%2B0f06a149c-cp310-cp310-manylinux_2_35_x86_64.whl

4.2 推理镜像

vllm:0.7.2-pg1

sglang:0.4.2-pg1

适用场景

vllm 0.7.2版本

sglang 0.4.2版本

操作系统

Ubuntu 22.04

Ubuntu 22.04

PPU SDK版本

1.4.2

1.4.2

通信库版本

ACCL-P 1.4.0-7

ACCL-P 1.4.0-7

兼容CUDA版本

12.3

12.3

Python版本

3.10

3.10

Pytorch版本

2.4

2.4

推理引擎版本

vLLM 0.7.2

SGLang 0.4.2

已验证模型

DeepSeek-R1/V3

DeepSeek-R1/V3

获取地址

获取方式

获取方式

重要提示:上述大模型推理镜像仅支持在PAI-EAS中使用,不支持在DSW、DLC中使用,建议方式:

使用“pai-pg1-training-1.4.2-ubuntu-latest”镜像,可支持在DSW、DLC、EAS中使用,根据使用的操作系统通过pip安装vllm 0.7.2/sglang 0.4.2:

pip install vllm==0.7.2+ppu1.4.2.oe -i https://art-pub.eng.t-head.cn/artifactory/api/pypi/ptgai-pypi_ppu_ubuntu_cu126_index/simple/

pip install sglang==0.4.2+ppu1.4.2.oe -i https://art-pub.eng.t-head.cn/artifactory/api/pypi/ptgai-pypi_ppu_ubuntu_cu126_index/simple/

5. 获取方式

5.1 PAI内直接获取

PAI的工作空间中,切换到镜像界面,可以看到PAI官方镜像列表,即可查看PAI-PPU官方镜像。

image

PAI中各子产品中新建实例,例如新建DSW实例,可以选择官方镜像,通过芯片类型快速筛选出PAI-PPU官方镜像。

image

5.2 通过Model Gallery使用推理镜像

Model Gallery中,选择DeepSeek-R1/V3系列模型,在部署界面中,选择“单机-GP7V机型”部署方式,即可使用PPU系列推理镜像。使用案例,您可以参考PPU上快速部署DeepSeek-R1/V3推理服务

image

image

5.3 镜像地址

重要

以下镜像地址仅限在PAI Serverless中使用,其中推理镜像仅支持EAS。

镜像地址

pai-pg1-training-1.4.2-ubuntu

dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4.2-torch2.4-mmcv1.7.2-mmdet3d1.0.0rc4-ubuntu22.04-cuda12.3-py310

pai-pg1-training-1.4.2-alios

dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4.2-torch2.4-alios7u2-cuda12.3-py310

pai-pg1-training-1.4.2-ubuntu-latest

dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4.2-torch2.5.1-vllm0.7.2-ubuntu22.04-cuda12.6-py310

vllm:0.7.2-pg1

eas-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai-eas/pai-quickstart:xpu1.4.2-vllm0.7.2

sglang:0.4.2-pg1

eas-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai-eas/pai-quickstart:xpu1.4.2-sglang0.4.2

6. 已知问题

  • 计算库:算子库Gemm计算中用到FP32 tensor core时,可能有corner case计算错误,预计在下个版本修复。

  • 跨节点CUDA Graph功能在当前版本支持还存在问题,预计下个版本中修复。

7. 附录:PPU SDK核心升级内容

7.1 规格兼容性

兼容PAI-PPU规格

ml.gp7vf.16.40xlarge

兼容KMD版本

建议使用1.4.2

兼容1.4.1、1.3.2

7.1.1 更新内容

  • 新增对Ubuntu 24.04的支持。

  • 新增vLLM 0.7.2、SGLang 0.4.2的支持,以便更好地支持Deepseek-V3、Deepseek-R1、Qwen2.5-Max。

  • 新增开源软件支持

    • vLLM v0.6.6.post 、v0.7.2

    • vllm-flash-attn v2.7.2.post1

    • Sglang v0.4.1、v0.4.2

    • xformers v0.0.29

    • TransformerEingine v1.13

  • 修复vllm加载LoRA且开启TP并行时custom allreduce kernel会出现hang的问题.

  • 修复容器在拥有SYS_ADMIN权限时无法正常使用PPU问题。