training-nv-pytorch 25.10-容器计算服务(ACS)-阿里云帮助中心

本文介绍training-nv-pytorch 25.10版本发布记录。

Main Features and Bug Fix Lists

Main Features

多架构支持（支持amd64 & aarch64架构），支持L20A、L20C机型实例使用。
megatron-core升级至0.14.0、transformer_engine升级至2.4，合入对应社区功能。
vLLM升级至0.11.0，合入对应社区功能。

Bugs Fix

暂无

	aarch64架构	amd64架构
应用场景	训练/推理	训练/推理
框架	pytorch	pytorch
Requirements	NVIDIA Driver release >= 575	NVIDIA Driver release >= 575
核心组件	Ubuntu : 24.04 CUDA : 12.8 Python : 3.12.7+gc torch : 2.8.0.9+nv25.3 accelerate : 1.7.0+ali deepspeed : 0.16.9+ali diffusers : 0.34.0 flash_attn : 2.8.3 flash_attn_3 : 3.0.0b1 flashinfer-python : 0.2.5 gdb : 15.0.50.20240403-git grouped_gemm : 1.1.4 megatron-core : 0.14.0 mmcv : 2.1.0 mmdet : 3.3.0 mmengine : 0.10.3 opencv-python-headless : 4.11.0.86 peft : 0.16.0 pytorch-dynamic-profiler : 0.24.11 pytorch-triton : 3.4.0 ray : 2.50.1 timm : 1.0.20 transformer_engine : 2.4.0+3cd6870c transformers : 4.56.1+ali ultralytics : 8.3.96 vllm : 0.11.0	Ubuntu : 24.04 CUDA : 12.8 Python : 3.12.7+gc torch : 2.8.0.9+nv25.3 accelerate : 1.7.0+ali deepspeed : 0.16.9+ali diffusers : 0.34.0 flash_attn : 2.8.3 flash_attn_3 : 3.0.0b1 flashinfer-python : 0.2.5 gdb : 15.0.50.20240403-git grouped_gemm : 1.1.4 megatron-core : 0.14.0 mmcv : 2.1.0 mmdet : 3.3.0 mmengine : 0.10.3 opencv-python-headless : 4.11.0.86 peft : 0.16.0 perf : 5.4.30 pytorch-dynamic-profiler : 0.24.11 ray : 2.50.1 timm : 1.0.20 transformer_engine : 2.4.0+3cd6870c transformers : 4.56.1+ali triton : 3.4.0 ultralytics : 8.3.96 vllm : 0.11.0

Assets

25.10

egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/training-nv-pytorch:25.10-serverless

VPC镜像

acs-registry-vpc.{region-id}.cr.aliyuncs.com/egslingjun/{image:tag}
{region-id}为您使用的ACS产品所在的开服地域，比如：cn-beijing、cn-wulanchabu等。
{image:tag}为实际镜像的名称和Tag。

说明

egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/training-nv-pytorch:25.10-serverless镜像适用于ACS产品形态、灵骏多租产品形态；该镜像不适用于灵骏单租产品形态，请勿在灵骏单租场景使用。

Driver Requirements

25.10 Release 基于CUDA 12.8.0，需要NVIDIA驱动程序版本575或更高版本。但是，如果您在数据中心GPU（例如T4或任何其他数据中心GPU）上运行，则可以使用NVIDIA驱动程序版本470.57（或更高版本R470）、525.85（或更高版本 R525）、535.86（或更高版本 R535），或545.23（或更高版本的 R545）。
CUDA驱动程序的兼容性包只支持特定的驱动程序。因此，用户应该从所有R418、R440、R450、R460、R510、R520、R530、R545 、R555和R560驱动程序升级，这些驱动程序不向前兼容CUDA 12.8。有关支持的驱动程序的完整列表，请参阅CUDA 应用程序兼容性主题。有关更多信息，请参阅 CUDA 兼容性和升级。

Key Features and Enhancements

PyTorch编译优化

PyTorch 2.0引入的编译优化能力在单卡小规模下通常可以获得显著的收益，但是在LLM训练中需要引入显存优化、FSDP/DeepSpeed等分布式框架，导致torch.compile()无法简单地获得收益或者存在负收益：

在DeepSpeed框架下控制通信的颗粒度，帮助编译器获取更完整的计算图，做更大范围的编译优化
优化版本的PyTorch：
- 优化PyTorch编译器前端，确保在计算图中出现任意graph break的情况下仍能正常编译
- 强化模式匹配以及dynamic shape能力，提高编译后代码性能

结合上述优化，在8B LLM训练下通常可以获得20%左右的E2E吞吐收益。

重计算显存优化

基于大量性能评测数据，包括不同模型在不同集群以及不同训练参数配置，以及评测过程中采集的相关显存利用率等系统指标数据，我们进行模型显存开销的预测建模分析，并推荐出最佳的激活值重算层数，并集成到PyTorch中，让用户可以低门槛的使用显存优化带来的性能收益。当前已支持该特性在DeepSpeed框架中的适配。

E2E性能益评估

利用云原生AI性能评测分析工具CNP，我们采用主流开源模型和框架配置，与标准的基础镜像进行了全面的端到端性能比较分析，并通过消融实验分析，进一步评估了每个优化组件对整体模型训练性能的收益贡献。

镜像对比基础镜像&迭代评估

GPU核心组件E2E性能贡献分析

以下测试基于25.10, 在多节点GPU集群上进行训练E2E性能评测和对比分析，对比项包括：

Base：NGC PyTorch Image。
ACS AI Image：AC2： Golden镜像使用AC2 BaseOS，不开启任何优化。
ACS AI Image：AC2+CompilerOpt：Golden镜像使用AC2 BaseOS，只启用torch compile优化。
ACS AI Image：AC2+CompilerOpt+CkptOpt：Golden镜像使用AC2 BaseOS，且同时开启torch compile和selective gradient checkpoint优化。

Quick Start

以下示例内容仅通过Docker方式拉取training-nv-pytorch镜像。

说明

在ACS中使用training-nv-pytorch镜像需要通过控制台创建工作负载界面的制品中心页面选取，或者通过YAML文件指定镜像引用。

1. 选择镜像

docker pull egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/training-nv-pytorch:[tag]

2. 调用API开启编译器+重计算显存优化

启用编译优化
使用transformers Trainer API：
启用重计算显存优化
```
export CHECKPOINT_OPTIMIZATION=true
```

3. 启动容器

镜像中内置了模型训练工具ljperf，以此说明启动容器和运行训练任务的步骤。

LLM类

# 启动容器并进入
docker run --rm -it --ipc=host --net=host  --privileged egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/training-nv-pytorch:[tag]

# 运行训练demo
ljperf benchmark --model deepspeed/llama3-8b

4. 使用建议

镜像中的改动涉及Pytorch、Deepspeed等库，请勿重装。
deepspeed配置中的zero_optimization.stage3_prefetch_bucket_size留空或者auto。
本镜像内置环境变量NCCL_SOCKET_IFNAME需要根据使用场景动态调整：
- 当单Pod只申请了1/2/4/8卡进行训练/推理任务时：需要设置NCCL_SOCKET_IFNAME=eth0（本镜像内默认配置）。
- 当单Pod申请了整机的16卡（此时您可以使用HPN高性能网络）进行训练/推理任务时：需要设置NCCL_SOCKET_IFNAME=hpn0。