PAI-PPU-V1.4.0 官方镜像 Release Note

更新时间:
复制为 MD 格式

本文介绍PAI-PPU-V1.4.0 官方镜像。

1. 镜像概述

为方便您快速在PAI Serverless上启用ml.gp7vf.16.40xlarge资源(真武810E),PPU发布了PAI Serverless官方镜像,其集成了PPU、高网、PAI等各层能力,提供开箱即用的体验和最优的性能表现。

2. 注意事项

  • 本镜像仅面向受邀客户开放,使用过程中请务必履行保密义务。

  • PAI-PPU训练镜像仅支持在PAI Serverless平台内(包含DSW、DLC、EAS等模块)使用。

  • PAI-PPU推理镜像仅支持在PAI Serverless - EAS中使用,不支持其他环境。

3. 主要更新

  • 更新PPU SDK1.4.0-hotfix2版本,内容详见 PG1 SDK核心升级内容

  • 更新ACCL-P1.4.0-6版本,内容详见ACCL-P核心升级内容

  • 适配自动驾驶场景,训练镜像集成Open-MMLab组件。

  • 适配自动驾驶场景,训练镜像推出CUDA11 Legacy镜像。

  • 推理镜像集成PAI-Bladellm-0.9.0RC13 版本,相对开源推理框架有明显性能提升。

  • 修复PPU SDK 1.4.0的两个已知问题:

    • 修复了TransformerEngine 1.11在特定情形下可能导致CuBLAS使用CPU内存泄漏的问题。

    • 修复了Megatron-Core PP>1 时模型训练性能退化的问题。

4. 镜像内容

4.1 训练镜像

4.1.1 通用训练场景

通用训练镜像

适用场景

适用于通用场景,使用AliOS国产化操作系统,需要根据具体用途pip install相应组件(pip install需使用镜像内置index)

操作系统

AliOS

PPU SDK版本

1.4.0-hotfix2 (6974ba)

通信库版本

ACCL-P 1.4.0-6 (9746bb0)

兼容CUDA版本

12.3

Python版本

3.10

Pytorch版本

2.4.0

Open-MMLab组件版本

其他组件版本

  • timm 0.9.7

  • torchvison 0.19.0

  • torchdata 0.8.0

  • torchtext 0.18.0a0

  • transformers 4.38.0dev0

  • tokenizers 0.15.2

  • xformers 0.0.27

  • numpy 1.23.5

获取方式

获取方式

4.1.2 自动驾驶模型训练场景

自动驾驶训练镜像-mmcv 1(推荐)

自动驾驶训练镜像-mmcv 1+mmdet3d 1

自动驾驶训练镜像-mmcv 2

适用场景

适用于大部分自动驾驶模型训练场景,使用Ubuntu操作系统,需根据需求选择对应Open-MMLab组件版本

操作系统

Ubuntu22.04

Ubuntu22.04

Ubuntu22.04

PPU SDK版本

1.4.0-hotfix2 (6974ba)

1.4.0-hotfix2 (6974ba)

1.4.0-hotfix2 (6974ba)

通信库版本

ACCL-P 1.4.0-6 (9746bb0)

ACCL-P 1.4.0-6 (9746bb0)

ACCL-P 1.4.0-6 (9746bb0)

兼容CUDA版本

12.3

12.3

12.3

Python版本

3.10

3.10

3.10

Pytorch版本

2.4.0

2.4.0

2.4.0

Open-MMLab组件版本

  • mmcv 1.7.2

  • mmdet 2.26.0

  • mmdet3d 0.17.2

  • mmseg 0.30.0

  • mmcv 1.7.2

  • mmdet 2.26.0

  • mmdet3d 1.0.0rc4

  • mmseg 0.30.0

  • mmcv 2.1.0

  • mmdet 3.3.0

  • mmdet3d 1.4.0

其他组件版本

  • timm 0.9.7

  • torchvison 0.19.0

  • torchdata 0.8.0

  • torchtext 0.18.0a0

  • transformers 4.46.2

  • tokenizers 0.20.3

  • xformers 0.0.27

  • numpy 1.23.5

  • transformers-engine 1.11.0

  • torch_scatter 2.1.2

  • nuscenes-devkit 1.1.11

  • detectron2 0.6

  • opencv-python 4.10.0.84

  • peft 0.12.0

  • flash-attn 2.5.6

  • timm 0.9.7

  • torchvison 0.19.0

  • torchdata 0.8.0

  • torchtext 0.18.0a0

  • transformers 4.46.2

  • tokenizers 0.20.3

  • xformers 0.0.27

  • numpy 1.23.5

  • transformers-engine 1.11.0

  • torch_scatter 2.1.2

  • nuscenes-devkit 1.1.11

  • detectron2 0.6

  • opencv-python 4.10.0.84

  • peft 0.12.0

  • flash-attn 2.5.6

  • timm 0.9.7

  • torchvison 0.19.0

  • torchdata 0.8.0

  • torchtext 0.18.0a0

  • transformers 4.46.2

  • tokenizers 0.20.3

  • xformers 0.0.27

  • numpy 1.23.5

  • transformers-engine 1.11.0

  • torch_scatter 2.1.2

  • nuscenes-devkit 1.1.11

  • detectron2 0.6

  • opencv-python 4.10.0.84

  • peft 0.12.0

  • flash-attn 2.5.6

获取方式

获取方式

4.1.3 Legacy场景

Legacy训练镜像-Pytorch2.1

Legacy训练镜像-Pytorch1.8

适用场景

适用于需要CUDA11的场合,适配自动驾驶领域的老版本模型和算子

操作系统

Ubuntu22.04

Ubuntu20.04

PPU SDK版本

1.4.0-hotfix2 (6974ba)

1.4.0-hotfix2 (6974ba)

通信库版本

ACCL-P 1.4.0-6 (9746bb0)

ACCL-P 1.4.0-6 (9746bb0)

兼容CUDA版本

11.8

11.1

Python版本

3.10

3.8

Pytorch版本

2.1.0

1.8.0

Open-MMLab组件版本

  • mmcv1.6.0

  • mmcv1.5.0

  • mmdet2.24,1

  • mmdet3d1.0.0rc2

  • mmseg 0.24.1

其他组件版本

  • timm 0.8.22dev0

  • torchvison 0.16.0

  • torchdata 0.7.0

  • torchtext 0.16.0

  • transformers 4.30.2

  • tokenizers 0.12.1

  • numpy 1.23.5

  • torchvison 0.8.0

  • nuscenes-devkit 1.1.9

  • numpy 1.23.5

  • opencv-python 4.7.0.72

获取方式

获取方式

4.2 推理镜像

大模型推理镜像

适用场景

适用于大模型推理场景,支持常用LLM模型

操作系统

AliOS

PPU SDK版本

1.4.0-hotfix2 (6974ba)

通信库版本

ACCL-P 1.4.0-6 (9746bb0)

兼容CUDA版本

12.3

Python版本

3.10

Pytorch版本

2.4

推理引擎版本

bladellm-v0.9.0rc13

已验证模型

Qwen 2.5 / Qwen 2/ Qwen / Llama 3 / Llama 2 / Llama

获取地址

获取方式

重要

上述大模型推理镜像仅支持在PAI-EAS中使用PAI-Bladellm推理的场景,其中不包含vllm,也不支持在DSW、DLC中使用。

如需使用vllm,建议方式:

  1. 继续使用“大模型推理镜像”,支持在EAS中使用,启动命令中通过pip安装vllm 0.6.3。

    pip install vllm==0.6.3+ppu1.4.0.oe -i https://art-pub.eng.t-head.cn/artifactory/api/pypi/ptgai-pypi_ppu_alios_cu123_index/simple/
  2. 使用“通用训练镜像”,支持在DSW、DLC、EAS中使用,同样执行上述命令安装vllm 0.6.3。

  3. 如需使用vllm 0.6.4,使用临时镜像:dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai-training-algorithm/autodrive:1.4-pytorch2.5.1-ubuntu22.04-cuda12.3-py310-vllm0.6.4。

5. 获取方式

5.1 PAI内直接获取

PAI的工作空间中,切换到“镜像”界面,可以看到PAI官方镜像列表,即可查看PAI-PPU官方镜像。

image.png

PAI中各子产品中新建实例,例如新建DSW实例,可以选择官方镜像,通过“芯片类型”即可快速筛选出PAI-PPU官方镜像。

image.png

5.2 镜像地址

重要

以下镜像地址仅限在PAI Serverless中使用,其中推理镜像仅支持EAS。

镜像地址

通用训练镜像

dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4-torch2.4-alios-cuda12.3-py310

自动驾驶训练镜像-mmcv 1(推荐)

dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4-torch2.4-mmcv1.7.2-mmdet3d0.17.2-ubuntu22.04-cuda12.3-py310

自动驾驶训练镜像-mmcv 1+mmdet3d 1

dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4-torch2.4-mmcv1.7.2-mmdet3d1.0.0rc4-ubuntu22.04-cuda12.3-py310

自动驾驶训练镜像-mmcv 2

dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4-torch2.4-mmcv2.1.0-mmdet3d1.4.0-ubuntu22.04-cuda12.3-py310

Legacy训练镜像--Pytorch2.1

dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4-torch2.1-mmcv1.6.0-ubuntu22.04-cuda11.8-py310

Legacy训练镜像-Pytorch1.8

dsw-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai/training-xpu-pytorch:1.4-torch1.8-mmcv1.5.0-ubuntu20.04-cuda11.1-py38

大模型推理镜像

eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/blade-llm:v0.9.0rc13-xpu-1.4.0

6. 已知问题

暂无

7. 附录1:PPU SDK核心升级内容

7.1 规格兼容性

兼容PAI-PPU规格

ml.gp7vf.16.40xlarge

兼容KMD版本

建议使用1.4.0

兼容1.3.2

7.2 包含核心组件

组件名称

概要说明

Compiler

PPU 编译器工具链

CUDA SDK Wrapper

CUDA API 兼容库

Acompute

PPU 计算加速库

Acext

PPU 量化加速库

PPU SMI

PPU 设备管理工具

PPU DCGM

PPU 在线监控工具

Asight System

PPU 性能分析工具

Asight Compute

PPU 性能分析工具

PPU GDB

PPU 调试工具

PPU MemCheck

PPU Sanitizer工具

PPU hgobjdump

PPU Device Binary工具

7.2.1 驱动程序核心更新内容

  • 支持环形print buffer,增强cuda device codeprintf打印功能

  • 支持stream memory opertaion v2版本API

  • 支持graph managementedge data相关API

  • 支持graph managementbatch memory op node相关API

7.2.2 加速库核心更新内容

  • cutlass3:新增group gemm persisent策略支持

  • 进一步提升FA在真武810E上的性能,最高提升85%

  • acext:新增a16w8 sub-channel量化支持

  • MoE:新增a16w4量化支持和调优

  • xformers:修复attn mask场景inf问题

  • RTC:新增对group conv、gemvRTC功能支持

  • 进一步增加预编译实例,减少RTC几率

  • blas: 新增 rank=1/2 Level2 API支持

  • blas:修复k=0gemm行为不正确问题

  • blas INT8 gemm:新增INT8输支持;新增NN/TN/TT支持

  • blas:新增cublasSgetriBatched支持

  • conv:优化wgrad > 4GB输入场景性能超100

  • conv:修复1D SpatialTF exception问题

  • acFFT: 新增功能支持C2C/D2Z/Z2Z,新增多个辅助API支持

  • solver:新增支持cholesky分解/求解,QR分解,SVD分解Jaccobi方法

7.2.3 编译器核心更新内容

  • 支持system level reserved shared memory特性

  • 支持triton 2.3.x、3.0.x

  • gcc host compiler的版本支持范围在[5.5 - 12.3]

  • ppu-gdb:

    • layout asm模式中优化kernel managed name的显示长度

    • 支持blockIdxinternal variables的条件断点,支持register条件断点

    • 支持gdb python extension特性(python版本范围在3.6-3.10)

    • 支持device kernel断点的触发行为:一次触发和多次触发,默认为:一次触发

7.2.4 PPU-SMI核心更新内容

  • 增加查询XID错误码的描述

  • 增加查询performance counter状态的描述

  • 增加gpm子命令查询和设置GPM的描述

  • 增加查询潮汐模式的描述

  • 增加查询产品架构和Minor number的描述

  • 增加设置和查询MPS模式的描述

7.2.5 DCGM核心更新内容

  • 支持ICN每链路收发速率相关field ID

  • 更新field ID支持情况列表

7.2.6 Asight System核心更新内容

  • UI样式美化与布局调整,更多tab 样式用于切换

  • asys支持指定CPUPython Profiling调用栈深度

  • asys支持指定采集应用程序部分进程的跟踪数据

  • asys支持采集PPU频率和温度等基本信息

  • asys支持采集CPU调用栈信息更短的采样周期

  • asys stats支持HGGC kernel grid block统计和跟踪导出

  • asys 支持HGGC Python backtrace调用栈采集

  • asys 支持 memory python backtrace调用栈采集

  • asys python functions trace支持采集python进程下的所有线程

  • Timeline View支持显示HGTX自定义颜色

  • Timeline View支持filterPPU节点时间占比更新

  • Timeline View支持显示RDMA网卡metrics指标信息

  • Timeline View支持显示PPU Activity依赖关系

  • Timeline View支持独立显示HGGC Graph信息

  • Timeline View支持标记时间线

  • Timeline View 支持以不同的颜色显示不同类型的Video时间线

  • Timeline ViewHGGC Launch API支持以kernel名显示

  • 支持在报告打开过程中关闭报告标签页

  • Events View增加了平铺模式,增强搜索记录的自动填充

  • Function View增加了火焰图和冰川图

  • HGTX range汇总支持指定进程和线程列表

8. 附录2:ACCL-P核心升级内容

由于真武810E芯片的特殊互联方式,在不同并行策略下,建议使用特定环境变量。从ACCL-P 1.4.0-6开始,芯片index发生变化,因此环境变量也相应调整,请注意配置。

推荐参数

TP 2

export CUDA_VISIBLE_DEVICES=4,7,5,6,1,2,0,3,12,15,13,14,9,10,8,11

TP 4

export CUDA_VISIBLE_DEVICES=4,5,7,6,0,1,3,2,9,8,10,11,13,12,14,15

TP 8

export CUDA_VISIBLE_DEVICES=4,5,7,6,2,3,1,0,13,12,14,15,11,10,8,9

TP 16

无需配置

# 基础环境变量
export NCCL_DEBUG=INFO
export NCCL_IB_DISABLE=1
export NCCL_SOCKET_IFNAME==eth0
export NCCL_IB_HCA=

9. 附录3:FAQ

如何查看PPU SDK版本

PAI-PPU-V1.4镜像集成PPU SDK 1.4.0-hotfix2版本,PPU SDK 1.4.0、PPU SDK 1.4.0-hotfix1均存在已知问题,不建议使用。可通过如下方法查看PPU SDK版本:

启动镜像后,执行ppu-smi -q命令,查看“SDK Version”信息:

root@122d8d7a7e37:~# ppu-smi -q

==============PPUSMI LOG==============

Timestamp                                   : Tue Dec  31 19:13:36 2024
Driver Version                              : 1.3.2
HGGC Version                                : 12.3
SDK Version                                 : 1.4.0-6974ba

Attached PPUs                               : 16
PPU 00000000:01:00.0
    Product Name                            : alixpu
    Persistence Mode                        : Disabled
    MIG Mode
        Current                             : N/A
        Pending                             : N/A
    Serial Number                           : N/A
    PPU UUID                                : PPU-7f53d39f-ce6e-dc78-c3d4-4c18653c19c0
    PCI
        Bus                                 : 0x01
        Device                              : 0x00
        Domain                              : 0x0000
        Device Id                           : 0x1E0410DE
...

SDK VersionPPU SDK实际版本的对应关系如下:

ppu-smi -q 返回SDK Version

PPU SDK实际版本

备注

1.4.0-6974ba

1.4.0-hotfix2

正式发布版本,建议使用

1.4.0-eb69e1

1.4.0-hotfix1

非正式版本,不建议使用

1.4.0-85c2d1 

1.4.0

非正式版本,不建议使用