PAI-PPU-V1.4.2 官方镜像 Release Note
1. 镜像概述
为方便您快速在PAI Serverless上启用ml.gp7vf.16.40xlarge资源(真武810E),PPU发布了PAI Serverless官方镜像,其集成了PPU、高网、PAI等各层能力,提供开箱即用的体验和最优的性能表现。
2. 注意事项
本镜像仅面向受邀客户开放,使用过程中请务必履行保密义务。
PAI-PPU训练镜像仅支持在PAI Serverless平台内(包含DSW、DLC、EAS等模块)使用。
PAI-PPU推理镜像仅支持在PAI Serverless-EAS中使用,不支持其他环境。
在PAI中使用PPU系列资源,支持选择“驱动设置”。本PAI-PPU-V1.4.2镜像推荐使用1.4.2版本驱动。
3. 主要更新
更新PPU SDK至1.4.2版本,详情请参见附录:PG1 SDK核心升级内容。
ACCL-P未做更新,保留至1.4.0-7版本。
为满足DeepSeek-R1/V3系列模型的推理部署需求,发布集成了vLLM 0.7.2、SGLang 0.4.2的推理镜像。
通用训练镜像更新至CUDA 12.6 + PyTorch 2.5.1的组合。
此版本暂不提供Legacy训练镜像和BladeLLM推理镜像。
4. 镜像内容
4.1 训练镜像
pai-pg1-training-1.4.2-ubuntu | pai-pg1-training-1.4.2-alios | pai-pg1-training-1.4.2-ubuntu-latest | |
适用场景 | Ubuntu操作系统 | AliOS操作系统 | Ubuntu操作系统+CUDA12.6+PyTorch2.5.1 |
操作系统 | Ubuntu 22.04 | AliOS 7u2 | Ubuntu 22.04 |
PPU SDK版本 | 1.4.2 | 1.4.2 | 1.4.2 |
通信库版本 | ACCL-P 1.4.0-7 | ACCL-P 1.4.0-7 | ACCL-P 1.4.0-7 |
兼容CUDA版本 | 12.3 | 12.3 | 12.6 |
Python版本 | 3.10 | 3.10 | 3.10 |
Pytorch版本 | 2.4.0 | 2.4.0 | 2.5.1 |
Open-MMLab组件版本 |
| 无 | 无 |
获取方式 |
重要提示:此版本默认安装mmcv 1.7.2+mmdet3d 0.17.2,其他Open-MMLab组件版本可通过下列方式安装:
安装方式 | |
mmcv 1.7.2 | |
mmcv 2.1.0 | |
mmdet3d 0.17.2 | |
mmdet3d 1.0.0rc4 | |
mmdet3d 1.4.0 | |
cumm 0.7.11 | |
spconv 2.3.8 | (需先安装 cumm) |
open3d 0.18.0 | |
4.2 推理镜像
vllm:0.7.2-pg1 | sglang:0.4.2-pg1 | |
适用场景 | vllm 0.7.2版本 | sglang 0.4.2版本 |
操作系统 | Ubuntu 22.04 | Ubuntu 22.04 |
PPU SDK版本 | 1.4.2 | 1.4.2 |
通信库版本 | ACCL-P 1.4.0-7 | ACCL-P 1.4.0-7 |
兼容CUDA版本 | 12.3 | 12.3 |
Python版本 | 3.10 | 3.10 |
Pytorch版本 | 2.4 | 2.4 |
推理引擎版本 | vLLM 0.7.2 | SGLang 0.4.2 |
已验证模型 | DeepSeek-R1/V3 | DeepSeek-R1/V3 |
获取地址 |
重要提示:上述大模型推理镜像仅支持在PAI-EAS中使用,不支持在DSW、DLC中使用,建议方式:
使用“pai-pg1-training-1.4.2-ubuntu-latest”镜像,可支持在DSW、DLC、EAS中使用,根据使用的操作系统通过pip安装vllm 0.7.2/sglang 0.4.2:
pip install vllm==0.7.2+ppu1.4.2.oe -i https://art-pub.eng.t-head.cn/artifactory/api/pypi/ptgai-pypi_ppu_ubuntu_cu126_index/simple/
pip install sglang==0.4.2+ppu1.4.2.oe -i https://art-pub.eng.t-head.cn/artifactory/api/pypi/ptgai-pypi_ppu_ubuntu_cu126_index/simple/5. 获取方式
5.1 PAI内直接获取
在PAI的工作空间中,切换到镜像界面,可以看到PAI官方镜像列表,即可查看PAI-PPU官方镜像。

在PAI中各子产品中新建实例,例如新建DSW实例,可以选择官方镜像,通过芯片类型快速筛选出PAI-PPU官方镜像。

5.2 通过Model Gallery使用推理镜像
在Model Gallery中,选择DeepSeek-R1/V3系列模型,在部署界面中,选择“单机-GP7V机型”部署方式,即可使用PPU系列推理镜像。使用案例,您可以参考在PPU上快速部署DeepSeek-R1/V3推理服务。


5.3 镜像地址
以下镜像地址仅限在PAI Serverless中使用,其中推理镜像仅支持EAS。
镜像地址 | |
pai-pg1-training-1.4.2-ubuntu | dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4.2-torch2.4-mmcv1.7.2-mmdet3d1.0.0rc4-ubuntu22.04-cuda12.3-py310 |
pai-pg1-training-1.4.2-alios | dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4.2-torch2.4-alios7u2-cuda12.3-py310 |
pai-pg1-training-1.4.2-ubuntu-latest | dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4.2-torch2.5.1-vllm0.7.2-ubuntu22.04-cuda12.6-py310 |
vllm:0.7.2-pg1 | eas-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai-eas/pai-quickstart:xpu1.4.2-vllm0.7.2 |
sglang:0.4.2-pg1 | eas-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai-eas/pai-quickstart:xpu1.4.2-sglang0.4.2 |
6. 已知问题
计算库:算子库Gemm计算中用到FP32 tensor core时,可能有corner case计算错误,预计在下个版本修复。
跨节点CUDA Graph功能在当前版本支持还存在问题,预计下个版本中修复。
7. 附录:PPU SDK核心升级内容
7.1 规格兼容性
兼容PAI-PPU规格 | ml.gp7vf.16.40xlarge |
兼容KMD版本 | 建议使用1.4.2 兼容1.4.1、1.3.2 |
7.1.1 更新内容
新增对Ubuntu 24.04的支持。
新增vLLM 0.7.2、SGLang 0.4.2的支持,以便更好地支持Deepseek-V3、Deepseek-R1、Qwen2.5-Max。
新增开源软件支持
vLLM v0.6.6.post 、v0.7.2
vllm-flash-attn v2.7.2.post1
Sglang v0.4.1、v0.4.2
xformers v0.0.29
TransformerEingine v1.13
修复vllm加载LoRA且开启TP并行时custom allreduce kernel会出现hang的问题.
修复容器在拥有SYS_ADMIN权限时无法正常使用PPU问题。