PAI-PPU-V1.4.1 官方镜像 Release Note
1.镜像概述
为方便您快速在PAI Serverless上启用ml.gp7vf.16.40xlarge资源(真武810E),PPU发布了PAI Serverless官方镜像,其集成了PPU、高网、PAI等各层能力,提供开箱即用的体验和最优的性能表现。
2.注意事项
本镜像仅面向受邀客户开放,使用过程中请务必履行保密义务。
PAI-PPU训练镜像仅支持在PAI Serverless平台内(包含DSW、DLC、EAS等模块)使用。
PAI-PPU推理镜像仅支持在PAI Serverless-EAS中使用,不支持其他环境。
在PAI中使用PPU系列资源,支持选择驱动设置。本PAI-PPU-V1.4.1镜像推荐使用1.4.1版本驱动。

3.主要更新
更新PPU SDK至1.4.1版本,详情请参见附录1:PG1 SDK核心升级内容。
更新ACCL-P至1.4.0-7版本,详情请参见附录2:ACCL-P核心升级内容。
为支持更灵活的场景,升级了通用训练镜像的基础环境版本:
增加对Ubuntu 22.04操作系统的支持。
增加支持的Pytorch版本,同时支持Pytorch 2.4.0与2.5.1。
为方便使用,我们精简了自动驾驶训练场景镜像,收敛到mmcv 1.7.2+mmdet3d 0.17.2,但支持更加灵活的pip包安装方式构建其他版本的训练环境。
推理场景下,支持的PAI-Bladellm版本升级到0.9.1rc3,vllm版本升级到0.6.4post1。
此版本暂不提供Legacy场景镜像。
4.镜像内容
4.1 训练镜像
4.1.1 自动驾驶模型训练场景
自动驾驶训练镜像 | |
适用场景 | 适用于大部分自动驾驶模型训练场景 |
操作系统 | Ubuntu 22.04 |
PPU SDK版本 | 1.4.1 |
通信库版本 | ACCL-P 1.4.0-7 |
兼容CUDA版本 | 12.3 |
Python版本 | 3.10 |
Pytorch版本 | 2.4.0 |
Open-MMLab组件版本 |
|
其他组件版本 |
|
获取方式 |
重要提示:此版本默认安装mmcv 1.7.2+mmdet3d 0.17.2,其他Open-MMLab组件版本可通过下列方式安装:
安装方式 | |
mmcv 1.7.2 | |
mmcv 2.1.0 | |
mmdet3d 0.17.2 | |
mmdet3d 1.0.0rc4 | |
mmdet3d 1.4.0 | |
cumm 0.7.11 | |
spconv 2.3.8 | (需先安装 cumm) |
open3d 0.18.0 | |
4.1.2 通用训练场景
通用训练镜像-AliOS | 通用训练镜像-Ubuntu | ||
适用场景 | 适用于通用场景,使用AliOS国产化操作系统,需要根据具体用途pip install相应组件(pip install需使用镜像内置index) | 适用于通用场景,使用Ubuntu 22.04操作系统,需要根据具体用途pip install相应组件(pip install需使用镜像内置index) | |
操作系统 | AliOS 7u2 | Ubuntu 22.04 | |
PPU SDK版本 | 1.4.1 | ||
通信库版本 | ACCL-P 1.4.0-7 | ||
兼容CUDA版本 | 12.3 | ||
Python版本 | 3.10 | ||
Pytorch版本 | 2.4.0 | 2.5.1 | 2.5.1 |
Open-MMLab组件版本 | 无 | 无 | 无 |
其他组件版本 |
|
|
|
获取方式 | |||
4.1.3 Legacy场景
此版本不包含Legacy场景镜像。
4.2 推理镜像
大模型推理镜像 | |
适用场景 | 适用于大模型推理场景,支持常用LLM模型 |
操作系统 | AliOS |
PPU SDK版本 | 1.4.1 |
通信库版本 | ACCL-P 1.4.0-7 |
兼容CUDA版本 | 12.3 |
Python版本 | 3.10 |
Pytorch版本 | 2.4 |
推理引擎版本 | bladellm-v0.9.1rc3 |
已验证模型 | Qwen 2.5 / Qwen 2/ Qwen / Llama 3 / Llama 2 / Llama |
获取地址 |
重要提示:上述大模型推理镜像仅支持在PAI-EAS中使用PAI-Bladellm推理的场景,其中不包含vllm,也不支持在DSW、DLC中使用。如需使用vllm,建议方式:
使用“大模型推理镜像”,支持在EAS中使用,启动命令中通过pip安装vllm 0.6.4post1
pip install vllm==0.6.4.post1+ppu1.4.1.oe -i https://art-pub.eng.t-head.cn/artifactory/api/pypi/ptgai-pypi_ppu_alios_cu123_index/simple/使用“通用训练镜像”,可支持在DSW、DLC、EAS中使用,根据使用的操作系统通过pip安装vllm 0.6.4post1:
AliOS 7u2:
pip install vllm==0.6.4.post1+ppu1.4.1.oe -i https://art-pub.eng.t-head.cn/artifactory/api/pypi/ptgai-pypi_ppu_alios_cu123_index/simple/Ubuntu 22.04:
pip install vllm==0.6.4.post1+ppu1.4.1.oe -i https://art-pub.eng.t-head.cn/artifactory/api/pypi/ptgai-pypi_ppu_ubuntu_cu123_index/simple/
5.获取方式
5.1 PAI内直接获取
在PAI的工作空间中,切换到镜像界面,可以看到PAI官方镜像列表,即可查看PAI-PPU官方镜像。

在PAI中各子产品中新建实例,例如新建DSW实例,可以选择官方镜像,通过芯片类型即可快速筛选出PAI-PPU官方镜像。

5.2 镜像地址
以下镜像地址仅限在PAI Serverless中使用其中推理镜像仅支持EAS。
镜像地址 | |
通用训练镜像-AliOS-Pytorch 2.4.0 | dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4.1-torch2.4-alios7u2-cuda12.3-py310 |
通用训练镜像-AliOS-Pytorch 2.5.1 | dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4.1-torch2.5.1-alios7u2-cuda12.3-py310 |
通用训练镜像-Ubuntu-Pytorch 2.4.0 | dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4.1-torch2.4-ubuntu22.04-cuda12.3-py310 |
通用训练镜像-Ubuntu-Pytorch 2.5.1 | dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4.1-torch2.5.1-ubuntu22.04-cuda12.3-py310 |
大模型推理镜像 | eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/blade-llm:v0.9.1rc3.dev1-g0f289ae2-xpu-1.4.1 |
6.已知问题
暂无
7.附录1:PPU SDK核心升级内容
7.1 规格兼容性
兼容PAI-PPU规格 | ml.gp7vf.16.40xlarge |
兼容KMD版本 | 建议使用1.4.1 兼容1.3.2 |
7.2 包含核心组件
组件名称 | 概要说明 |
Compiler | PPU 编译器工具链 |
CUDA SDK Wrapper | CUDA API 兼容库 |
Acompute | PPU 计算加速库 |
Acext | PPU 量化加速库 |
PPU SMI | PPU 设备管理工具 |
PPU DCGM | PPU 在线监控工具 |
Asight System | PPU 性能分析工具 |
Asight Compute | PPU 性能分析工具 |
PPU GDB | PPU 调试工具 |
PPU MemCheck | PPU Sanitizer工具 |
PPU hgobjdump | PPU Device Binary工具 |
7.2.1 驱动程序核心更新内容
支持texture基本功能;
修复HGGC_AUTO_DISPATCH_BARRIER环境变量打开时hang的问题;
修复v1.4版本SDK搭配v1.4版本之前的老版本KMD驱动时ppu-smi无法显示0号卡进程列表的问题;
7.2.2 加速库核心更新内容
acsolver新增接口支持:Xgetrf、Xgetrs、Spotrf、Dpotrf、Spotrs、Dpotrs;
修复 gemm m 超大尺寸导致 grid.y > 65536 时计算正确性问题;
7.2.3 编译器核心更新内容
暂无
7.2.4 PPU-SMI核心更新内容
暂无
7.2.5 DCGM核心更新内容
暂无
7.2.6 Asight System核心更新内容
暂无
8.附录2:ACCL-P核心升级内容
支持PPU SDK 1.4.1