inference-xpu-pytorch-opt

更新时间:
复制为 MD 格式

本文介绍inference-xpu-pytorch-opt镜像版本发布记录。

说明
  • PPU SDK 1.7.0之前的绑定SDK发布Python软件包的方式会导致迭代周期过长,难以满足日益加快的社区更新节奏。从PPU SDK 1.7.0开始PPU运行环境实现了Python软件包与PPU SDK解耦机制:PPU SDK只有重大功能增强/更新才发布版本,不再按月迭代;社区新模型、框架会通过Python 软件包敏捷发布来支持。

  • 由于PPU SDK迭代节奏的变化,PPU容器镜像也不再按月迭代,PPU容器镜像跟随PPU SDK发布同步更新版本,作为后续新SDK版本前的Base运行环境。新模型/新框架可以在最新的Base运行环境上自行升级获得相应功能/特性的支持。

Main Features and Bug Fix Lists

Main Features

  • PPU SDK 升级至 1.7.0,CUDA 升级至 12.9、PyTorch核心组件升级至2.8

  • 内置支持SGLang 0.5.4.post3,支持专家并行和PD分离特性优化。

Bugs Fix

Contents

镜像名

inference-xpu-pytorch-opt

镜像TAG

sglang0.5.4.post3-250105

应用场景

多机SGLang推理

框架

pytorch

Requirements

PPU SDK 1.7.0.post1

核心组件

  • Ubuntu : 24.04

  • Python : 3.12.3

  • CUDA : 12.9

  • Torch : 2.8.0

  • flash-attn:2.8.2+ppu1.7.0.post1

  • flashinfer : 0.4.0rc3

  • flashmla: 1.0.0+ppu1.7.0.post1

  • deep_gemm : 1.0.0+ppu1.7.0.post1

  • sglang : 0.5.4.post3+7a2348

  • sgl-kernel : 0.3.16.post5+ppu1.7.0.post1

  • nvshmem : 1.7.0

  • accl_ep : 1.7.0.1+d62dd17

  • orjson : 3.10.15

镜像Assets

公网镜像

egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-xpu-pytorch-opt:sglang0.5.4.post3-250105

Driver Requirements

  • Driver version >= 1.1.0

Key Features and Enhancements

专家并行和PD分离特性优化

PD分离模型推理提供将模型推理的 Prefill 和 Decode 两阶段负载分离至不同实例上执行的能力。基于PrefillDecode阶段所具备的不同负载特征,PD分离部署相比开源框架具有更高的服务性能。

专家并行是 MoE 模型工程化中性能提升的关键。由于在 FFN 阶段每个token只会分发给 TopK 个专家,导致每个专家只处理部分的token,计算效率很低。专家并行核心思想是将模型中的“Expert”模块(即子模型)按功能或参数分配到不同的计算设备上,每个设备仅负责特定专家的计算任务。这种并行方式通过解耦模型规模与硬件资源限制,允许模型扩展至万亿级参数规模,同时通过动态路由机制(如门控网络)将输入数据分发到最匹配的专家处理,从而提升计算效率。

说明

该特性仅适用于inference-nv-pytorch-opt镜像,如需使用该特性请联系您的客户经理(BTE)来制定方案。

ACCL通信库

ACCL是阿里针对灵骏产品自研的高性能网络通信库,针对GPU、PPUAMD三个场景提供ACCL-N、ACCL-PACCL-R三个版本。ACCL-N是阿里云基于英伟达NCCL定制后提供的高性能通信库,在完全兼容NCCL的基础上,修复了官方NCCL版本的一些BUG,并进行了性能和稳定性相关的优化。ACCL-P是基于平头哥开源通信库pccl,进行二次开发的集合通信库。ACCL-R是基于AMD Rocm开源通信库rccl,进行二次开发的集合通信库。本版本主要将ACCL/ACCL-N上实现的主要特性移植到了pccl上,修复了一些问题,结合高网的相关自研产品组件进行了深度定制。

E2E性能益评估

如需获取PerfHub对外性能数据,请联系您的客户经理(BTE)。

Quick Start

PD分离部署

该镜像支持PD分离部署使用,建议通过您的客户经理(BTE)制定解决方案。更多内容,请参见ACS PD分离部署 MoE模型(EP优化)最佳实践

PD分离部署

以下示例内容仅通过Docker方式拉取inference-xpu-pytorch-opt镜像,并使用Qwen2.5-7B-Instruct模型测试推理服务。

说明

ACS中使用inference-xpu-pytorch-opt镜像可以通过控制台创建工作负载时输入指定镜像地址,或者通过YAML文件指定镜像引用。

  1. 拉取推理容器镜像。

    说明

    通过公网拉取ACS AI容器镜像需要先获取鉴权密钥。建议您使用VPC方式加速拉取AI容器镜像,减少镜像拉取的时间。

    docker pull egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-xpu-pytorch-opt:[tag]
  2. ModelScope下载开源模型。

    pip install modelscope
    cd /mnt
    modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-Instruct
  3. 启动以下命令进入容器。

    docker run -d -t --network=host --privileged --init --ipc=host \
    --ulimit memlock=-1 --ulimit stack=67108864  \
    -v /mnt/:/mnt/ \
    egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-xpu-pytorch-opt:[tag]
  4. 执行推理测试,测试推理对话功能。

    1. 启动Server端服务。

      python3 -m sglang.launch_server \
      --model-path /mnt/Qwen2.5-7B-Instruct \
      --tensor-parallel-size 1
    2. Client端进行测试。

      curl http://localhost:8000/v1/chat/completions \
          -H "Content-Type: application/json" \
          -d '{
          "model": "/mnt/Qwen2.5-7B-Instruct",  
          "messages": [
          {"role": "system", "content": "你是个友善的AI助手。"},
          {"role": "user", "content": "介绍一下深度学习。"}
          ]}'

      输出如下所示:

      image.png

使用建议

  • 镜像中的改动涉及PyTorch等库,请勿重装。

  • SDK 1.7.0 各框架支持的标准量化能力:

    • 提供适配SDK1.7.0的量化模型示例,系统登录账密复用 PTG PIP 账密(如无,可联系您的客户经理获取):

      • DeepSeek-R1:支持 per-token/per-channel a8w8(int8)量化方案

      • DeepSeek v3.2:支持 per-token/per-channel a8w8(int8)量化方案

      • Kimi-K2-Instruct:支持 per-token/per-channel a8w8(int8)量化方案

      • Qwen3-235B-A22B:支持 per-token/per-channel a8w8(int8)量化方案

  • 建议配合“1.5.1”及以上版本驱动使用本镜像获得最佳性能,设置方法请参考ACS GPU Pod指定GPU型号和驱动版本GPU驱动版本说明

  • ACS环境使用AcclEP-P(即PPU版本的DeepEP) ,需要设置环境变量export EIC_VSOLAR=1(本镜像需要设置,预计后续镜像移除该限制)。

  • 本镜像内置环境变量NCCL_SOCKET_IFNAME需要根据使用场景动态调整:

    • 当单Pod只申请了1/2/4/8卡进行训练/推理任务时:需要设置NCCL_SOCKET_IFNAME=eth0(本镜像内默认配置)。

    • 当单Pod申请了整机的16卡(此时您可以使用HPN高网)进行训练/推理任务时:需要设置NCCL_SOCKET_IFNAME=hpn0

  • 本镜像建议配合使用“ACS产品使用阿里云提供的PPU PIP服务”,支持在ACS VPC内一站式免密使用PIP服务,不需要再组合使用其他PIP源。本镜像内已经内置了相应的pip config,还需要您结合您的使用场景根据文档的指引做必要的配置。