PAI-PPU-V1.4.0 官方镜像 Release Note
本文介绍PAI-PPU-V1.4.0 官方镜像。
1. 镜像概述
为方便您快速在PAI Serverless上启用ml.gp7vf.16.40xlarge资源(真武810E),PPU发布了PAI Serverless官方镜像,其集成了PPU、高网、PAI等各层能力,提供开箱即用的体验和最优的性能表现。
2. 注意事项
本镜像仅面向受邀客户开放,使用过程中请务必履行保密义务。
PAI-PPU训练镜像仅支持在PAI Serverless平台内(包含DSW、DLC、EAS等模块)使用。
PAI-PPU推理镜像仅支持在PAI Serverless - EAS中使用,不支持其他环境。
3. 主要更新
更新PPU SDK至1.4.0-hotfix2版本,内容详见 PG1 SDK核心升级内容。
更新ACCL-P至1.4.0-6版本,内容详见ACCL-P核心升级内容。
适配自动驾驶场景,训练镜像集成Open-MMLab组件。
适配自动驾驶场景,训练镜像推出CUDA11 Legacy镜像。
推理镜像集成PAI-Bladellm-0.9.0RC13 版本,相对开源推理框架有明显性能提升。
修复PPU SDK 1.4.0的两个已知问题:
修复了TransformerEngine 1.11在特定情形下可能导致CuBLAS使用CPU内存泄漏的问题。
修复了Megatron-Core PP>1 时模型训练性能退化的问题。
4. 镜像内容
4.1 训练镜像
4.1.1 通用训练场景
通用训练镜像 | |
适用场景 | 适用于通用场景,使用AliOS国产化操作系统,需要根据具体用途pip install相应组件(pip install需使用镜像内置index) |
操作系统 | AliOS |
PPU SDK版本 | 1.4.0-hotfix2 (6974ba) |
通信库版本 | ACCL-P 1.4.0-6 (9746bb0) |
兼容CUDA版本 | 12.3 |
Python版本 | 3.10 |
Pytorch版本 | 2.4.0 |
Open-MMLab组件版本 | 无 |
其他组件版本 |
|
获取方式 |
4.1.2 自动驾驶模型训练场景
自动驾驶训练镜像-mmcv 1(推荐) | 自动驾驶训练镜像-mmcv 1+mmdet3d 1 | 自动驾驶训练镜像-mmcv 2 | |
适用场景 | 适用于大部分自动驾驶模型训练场景,使用Ubuntu操作系统,需根据需求选择对应Open-MMLab组件版本 | ||
操作系统 | Ubuntu22.04 | Ubuntu22.04 | Ubuntu22.04 |
PPU SDK版本 | 1.4.0-hotfix2 (6974ba) | 1.4.0-hotfix2 (6974ba) | 1.4.0-hotfix2 (6974ba) |
通信库版本 | ACCL-P 1.4.0-6 (9746bb0) | ACCL-P 1.4.0-6 (9746bb0) | ACCL-P 1.4.0-6 (9746bb0) |
兼容CUDA版本 | 12.3 | 12.3 | 12.3 |
Python版本 | 3.10 | 3.10 | 3.10 |
Pytorch版本 | 2.4.0 | 2.4.0 | 2.4.0 |
Open-MMLab组件版本 |
|
|
|
其他组件版本 |
|
|
|
获取方式 | |||
4.1.3 Legacy场景
Legacy训练镜像-Pytorch2.1 | Legacy训练镜像-Pytorch1.8 | |
适用场景 | 适用于需要CUDA11的场合,适配自动驾驶领域的老版本模型和算子 | |
操作系统 | Ubuntu22.04 | Ubuntu20.04 |
PPU SDK版本 | 1.4.0-hotfix2 (6974ba) | 1.4.0-hotfix2 (6974ba) |
通信库版本 | ACCL-P 1.4.0-6 (9746bb0) | ACCL-P 1.4.0-6 (9746bb0) |
兼容CUDA版本 | 11.8 | 11.1 |
Python版本 | 3.10 | 3.8 |
Pytorch版本 | 2.1.0 | 1.8.0 |
Open-MMLab组件版本 |
|
|
其他组件版本 |
|
|
获取方式 | ||
4.2 推理镜像
大模型推理镜像 | |
适用场景 | 适用于大模型推理场景,支持常用LLM模型 |
操作系统 | AliOS |
PPU SDK版本 | 1.4.0-hotfix2 (6974ba) |
通信库版本 | ACCL-P 1.4.0-6 (9746bb0) |
兼容CUDA版本 | 12.3 |
Python版本 | 3.10 |
Pytorch版本 | 2.4 |
推理引擎版本 | bladellm-v0.9.0rc13 |
已验证模型 | Qwen 2.5 / Qwen 2/ Qwen / Llama 3 / Llama 2 / Llama |
获取地址 |
上述大模型推理镜像仅支持在PAI-EAS中使用PAI-Bladellm推理的场景,其中不包含vllm,也不支持在DSW、DLC中使用。
如需使用vllm,建议方式:
继续使用“大模型推理镜像”,支持在EAS中使用,启动命令中通过pip安装vllm 0.6.3。
pip install vllm==0.6.3+ppu1.4.0.oe -i https://art-pub.eng.t-head.cn/artifactory/api/pypi/ptgai-pypi_ppu_alios_cu123_index/simple/使用“通用训练镜像”,支持在DSW、DLC、EAS中使用,同样执行上述命令安装vllm 0.6.3。
如需使用vllm 0.6.4,使用临时镜像:dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai-training-algorithm/autodrive:1.4-pytorch2.5.1-ubuntu22.04-cuda12.3-py310-vllm0.6.4。
5. 获取方式
5.1 PAI内直接获取
在PAI的工作空间中,切换到“镜像”界面,可以看到PAI官方镜像列表,即可查看PAI-PPU官方镜像。

在PAI中各子产品中新建实例,例如新建DSW实例,可以选择官方镜像,通过“芯片类型”即可快速筛选出PAI-PPU官方镜像。

5.2 镜像地址
以下镜像地址仅限在PAI Serverless中使用,其中推理镜像仅支持EAS。
镜像地址 | |
通用训练镜像 | dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4-torch2.4-alios-cuda12.3-py310 |
自动驾驶训练镜像-mmcv 1(推荐) | dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4-torch2.4-mmcv1.7.2-mmdet3d0.17.2-ubuntu22.04-cuda12.3-py310 |
自动驾驶训练镜像-mmcv 1+mmdet3d 1 | dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4-torch2.4-mmcv1.7.2-mmdet3d1.0.0rc4-ubuntu22.04-cuda12.3-py310 |
自动驾驶训练镜像-mmcv 2 | dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4-torch2.4-mmcv2.1.0-mmdet3d1.4.0-ubuntu22.04-cuda12.3-py310 |
Legacy训练镜像--Pytorch2.1 | dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4-torch2.1-mmcv1.6.0-ubuntu22.04-cuda11.8-py310 |
Legacy训练镜像-Pytorch1.8 | dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4-torch1.8-mmcv1.5.0-ubuntu20.04-cuda11.1-py38 |
大模型推理镜像 | eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/blade-llm:v0.9.0rc13-xpu-1.4.0 |
6. 已知问题
暂无
7. 附录1:PPU SDK核心升级内容
7.1 规格兼容性
兼容PAI-PPU规格 | ml.gp7vf.16.40xlarge |
兼容KMD版本 | 建议使用1.4.0 兼容1.3.2 |
7.2 包含核心组件
组件名称 | 概要说明 |
Compiler | PPU 编译器工具链 |
CUDA SDK Wrapper | CUDA API 兼容库 |
Acompute | PPU 计算加速库 |
Acext | PPU 量化加速库 |
PPU SMI | PPU 设备管理工具 |
PPU DCGM | PPU 在线监控工具 |
Asight System | PPU 性能分析工具 |
Asight Compute | PPU 性能分析工具 |
PPU GDB | PPU 调试工具 |
PPU MemCheck | PPU Sanitizer工具 |
PPU hgobjdump | PPU Device Binary工具 |
7.2.1 驱动程序核心更新内容
支持环形print buffer,增强cuda device code中printf打印功能
支持stream memory opertaion v2版本API
支持graph management中edge data相关API
支持graph management中batch memory op node相关API
7.2.2 加速库核心更新内容
cutlass3:新增group gemm persisent策略支持
进一步提升FA在真武810E上的性能,最高提升85%
acext:新增a16w8 sub-channel量化支持
MoE:新增a16w4量化支持和调优
xformers:修复attn mask场景inf问题
RTC:新增对group conv、gemv的RTC功能支持
进一步增加预编译实例,减少RTC几率
blas: 新增 rank=1/2 Level2 API支持
blas:修复k=0时gemm行为不正确问题
blas INT8 gemm:新增INT8输支持;新增NN/TN/TT支持
blas:新增cublasSgetriBatched支持
conv:优化wgrad > 4GB输入场景性能超100倍
conv:修复1D SpatialTF exception问题
acFFT: 新增功能支持C2C/D2Z/Z2Z,新增多个辅助API支持
solver:新增支持cholesky分解/求解,QR分解,SVD分解Jaccobi方法
7.2.3 编译器核心更新内容
支持system level reserved shared memory特性
支持triton 2.3.x、3.0.x
gcc host compiler的版本支持范围在[5.5 - 12.3]
ppu-gdb:
在layout asm模式中优化kernel managed name的显示长度
支持blockIdx等internal variables的条件断点,支持register条件断点
支持gdb python extension特性(python版本范围在3.6-3.10)
支持device kernel断点的触发行为:一次触发和多次触发,默认为:一次触发
7.2.4 PPU-SMI核心更新内容
增加查询XID错误码的描述
增加查询performance counter状态的描述
增加gpm子命令查询和设置GPM的描述
增加查询潮汐模式的描述
增加查询产品架构和Minor number的描述
增加设置和查询MPS模式的描述
7.2.5 DCGM核心更新内容
支持ICN每链路收发速率相关field ID
更新field ID支持情况列表
7.2.6 Asight System核心更新内容
UI样式美化与布局调整,更多tab 样式用于切换
asys支持指定CPU和Python Profiling调用栈深度
asys支持指定采集应用程序部分进程的跟踪数据
asys支持采集PPU频率和温度等基本信息
asys支持采集CPU调用栈信息更短的采样周期
asys stats支持HGGC kernel grid block统计和跟踪导出
asys 支持HGGC Python backtrace调用栈采集
asys 支持 memory python backtrace调用栈采集
asys python functions trace支持采集python进程下的所有线程
Timeline View支持显示HGTX自定义颜色
Timeline View支持filter后PPU节点时间占比更新
Timeline View支持显示RDMA网卡metrics指标信息
Timeline View支持显示PPU Activity依赖关系
Timeline View支持独立显示HGGC Graph信息
Timeline View支持标记时间线
Timeline View 支持以不同的颜色显示不同类型的Video时间线
Timeline View中HGGC Launch API支持以kernel名显示
支持在报告打开过程中关闭报告标签页
Events View增加了平铺模式,增强搜索记录的自动填充
Function View增加了火焰图和冰川图
HGTX range汇总支持指定进程和线程列表
8. 附录2:ACCL-P核心升级内容
由于真武810E芯片的特殊互联方式,在不同并行策略下,建议使用特定环境变量。从ACCL-P 1.4.0-6开始,芯片index发生变化,因此环境变量也相应调整,请注意配置。
推荐参数 | |
TP 2 | export CUDA_VISIBLE_DEVICES=4,7,5,6,1,2,0,3,12,15,13,14,9,10,8,11 |
TP 4 | export CUDA_VISIBLE_DEVICES=4,5,7,6,0,1,3,2,9,8,10,11,13,12,14,15 |
TP 8 | export CUDA_VISIBLE_DEVICES=4,5,7,6,2,3,1,0,13,12,14,15,11,10,8,9 |
TP 16 | 无需配置 |
# 基础环境变量
export NCCL_DEBUG=INFO
export NCCL_IB_DISABLE=1
export NCCL_SOCKET_IFNAME==eth0
export NCCL_IB_HCA=9. 附录3:FAQ
如何查看PPU SDK版本
PAI-PPU-V1.4镜像集成PPU SDK 1.4.0-hotfix2版本,PPU SDK 1.4.0、PPU SDK 1.4.0-hotfix1均存在已知问题,不建议使用。可通过如下方法查看PPU SDK版本:
启动镜像后,执行ppu-smi -q命令,查看“SDK Version”信息:
root@122d8d7a7e37:~# ppu-smi -q
==============PPUSMI LOG==============
Timestamp : Tue Dec 31 19:13:36 2024
Driver Version : 1.3.2
HGGC Version : 12.3
SDK Version : 1.4.0-6974ba
Attached PPUs : 16
PPU 00000000:01:00.0
Product Name : alixpu
Persistence Mode : Disabled
MIG Mode
Current : N/A
Pending : N/A
Serial Number : N/A
PPU UUID : PPU-7f53d39f-ce6e-dc78-c3d4-4c18653c19c0
PCI
Bus : 0x01
Device : 0x00
Domain : 0x0000
Device Id : 0x1E0410DE
...SDK Version与PPU SDK实际版本的对应关系如下:
ppu-smi -q 返回SDK Version | PPU SDK实际版本 | 备注 |
1.4.0-6974ba | 1.4.0-hotfix2 | 正式发布版本,建议使用 |
1.4.0-eb69e1 | 1.4.0-hotfix1 | 非正式版本,不建议使用 |
1.4.0-85c2d1 | 1.4.0 | 非正式版本,不建议使用 |