inference-xpu-pytorch 26.04

更新时间:
复制为 MD 格式

本文介绍inference-xpu-pytorch 26.04版本发布记录。

Main Features and Bug Fix Lists

Main Features

  • 基础镜像PPU SDK升级至2.1.0,CUDA升级至13.0。

  • vLLM镜像发布 vLLM0.18.0 和 vLLM0.19.0 两个版本。

  • SGLang镜像发布 SGLang0.5.9 和 SGLang0.5.10 两个版本。

Bug Fix

暂无。

Contents

镜像名称

inference-xpu-pytorch

镜像Tag

26.04-v2.1.0-vllm0.18.0-torch2.9-cu130-20260508

26.04-v2.1.0-vllm0.19.0-torch2.10-cu130-20260508

26.04-v2.1.0-sglang0.5.9-torch2.9-cu130-20260508

26.04-v2.1.0-sglang0.5.10-torch2.9-cu130-20260508

应用场景

大模型推理

大模型推理

大模型推理

大模型推理

框架

pytorch

pytorch

pytorch

pytorch

Requirements

PPU SDK V2.1.0

PPU SDK V2.1.0

PPU SDK V2.1.0

PPU SDK V2.1.0

系统组件

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.9.0

  • CUDA 13.0

  • ACCL-P 2.1.0-11-accl-p

  • AcclEP-P 2.1.0.0+b235f284

  • eic-sdk 1.3.9.cuda13.2404.ppu.202605061200

  • eic-sailshmem 2.1.0.3.ga45275a

  • deep_gemm 1.0.0+dev284.g5ebfaef89

  • flash-attn 2.7.4.post1

  • flash-attn-3 3.0.0b1

  • flash_mla 1.0.0+dev076.g84bd5a

  • flashinfer-python 0.6.4

  • mooncake-transfer-engine 0.3.6.post1

  • peft 0.12.0

  • ray 2.31.0

  • xformers 0.0.30

  • transformers 4.57.0

  • transformer_engine 2.8.0+902761ed

  • triton 3.5.0+gitcc5446cf

  • torchao 0.11.0

  • torchvision 0.24.0

  • torchaudio 2.9.0

  • vllm 0.18.0+cu130

  • xgrammar 0.1.33

  • ljperf 0.1.0+477686c5

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.10.0

  • CUDA 13.0

  • ACCL-P 2.1.0-11-accl-p

  • AcclEP-P 2.1.0.0+b235f284

  • eic-sdk 1.3.9.cuda13.2404.ppu.202605061200

  • eic-sailshmem 2.1.0.3.ga45275a

  • deep_gemm 1.0.0+dev284.g5ebfaef89

  • flash-attn 2.7.4.post1

  • flash-attn-3 3.0.0b1

  • flash_mla 1.0.0+dev076.g84bd5a

  • flashinfer-python 0.6.4

  • mooncake-transfer-engine 0.3.6.post1

  • peft 0.12.0

  • ray 2.31.0

  • xformers 0.0.30

  • transformers 4.57.0

  • transformer_engine 2.8.0+902761ed

  • triton 3.5.0+gitcc5446cf

  • torchao 0.11.0

  • torchvision 0.25.0

  • torchaudio 2.10.0

  • vllm 0.19.0+cu130

  • xgrammar 0.1.33

  • ljperf 0.1.0+477686c5

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.9.0

  • CUDA 13.0

  • ACCL-P 2.1.0-11-accl-p

  • AcclEP-P 2.1.0.0+b235f284

  • eic-sdk 1.3.9.cuda13.2404.ppu.202605061200

  • eic-sailshmem 2.1.0.3.ga45275a

  • decord 0.6.0

  • decord2 3.3.0

  • deep_gemm 1.0.0+a02d18c

  • flash-attn 2.7.4.post1

  • flash-attn-3 3.0.0b1

  • flash_mla 1.0.0+dev076.g84bd5a

  • flashinfer-python 0.6.3

  • mooncake-transfer-engine 0.3.6.post1

  • peft 0.12.0

  • ray 2.31.0

  • sglang 0.5.9

  • sgl-kernel 0.3.21

  • transformers 4.57.1

  • transformer_engine 2.5.0+174d6f1f

  • torchao 0.9.0+git14cfbc740

  • torchvision 0.24.0

  • triton 3.5.0+gitcc5446cf

  • xformers 0.0.29.post1

  • xgrammar 0.1.27

  • ljperf 0.1.0+477686c5

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.9.0

  • CUDA 13.0

  • ACCL-P 2.1.0-11-accl-p

  • AcclEP-P 2.1.0.0+b235f284

  • eic-sdk 1.3.9.cuda13.2404.ppu.202605061200

  • eic-sailshmem 2.1.0.3.ga45275a

  • decord 0.6.0

  • decord2 3.3.0

  • deep_gemm 1.0.0+v0.1.0.ppu2.1.0

  • flash-attn 2.7.4.post1

  • flash-attn-3 3.0.0b1

  • flash_mla 1.0.0+v0.1.0.ppu2.1.0

  • flashinfer-python 0.6.4+v0.1.0.ppu2.1.0

  • mooncake-transfer-engine 0.3.6.post1

  • peft 0.12.0

  • ray 2.31.0

  • sglang 0.5.10+v0.1.0.ppu2.1.0

  • sgl-kernel 0.4.1+v0.1.0.ppu2.1.0

  • transformers 4.57.1

  • transformer_engine 2.5.0+174d6f1f

  • torchao 0.9.0+git14cfbc740

  • torchvision 0.24.0

  • triton 3.5.0+gitcc5446cf

  • xformers 0.0.29.post1

  • xgrammar 0.1.27

  • ljperf 0.1.0+477686c5

镜像Asset

建议您使用VPC方式加速拉取AI容器镜像,减少镜像拉取的时间。

公网镜像

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-xpu-pytorch:26.04-v2.1.0-vllm0.18.0-torch2.9-cu130-20260508

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-xpu-pytorch:26.04-v2.1.0-vllm0.19.0-torch2.10-cu130-20260508

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-xpu-pytorch:26.04-v2.1.0-sglang0.5.9-torch2.9-cu130-20260508

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-xpu-pytorch:26.04-v2.1.0-sglang0.5.10-torch2.9-cu130-20260508

VPC镜像

将指定的AI容器镜像Asset URIegslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/{image:tag}替换为acs-registry-vpc.{region-id}.cr.aliyuncs.com/egslingjun/{image:tag}即可在VPC内快速拉取PPU AI容器镜像。

  • {region-id}:ACS产品开服地域(包括金融云、政务云等)的地域ID。例如:cn-beijingcn-wulanchabucn-shanghai-finance-1等。

  • {image:tag}:AI容器镜像的名称和Tag。例如:inference-xpu-pytorch:25.11-v1.7.0-vllm0.10.2-torch2.8-cu129-20251113training-xpu-pytorch:25.11等。

Quick Start

以下示例内容仅通过Docker方式拉取inference-xpu-pytorch镜像,并使用Qwen2.5-7B-Instruct模型测试推理服务。

说明

ACS中使用inference-xpu-pytorch镜像需要通过控制台创建工作负载界面的制品中心页面选取,或者通过YAML文件指定镜像引用。

  1. 拉取推理容器镜像。

    docker pull egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-xpu-pytorch:[tag]
  2. modelscope下载模型文件。

    pip install modelscope
    cd /mnt
    modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-Instruct
  3. 创建推理服务容器。

    docker run -d -t --network=host --privileged --init --ipc=host \
    --ulimit memlock=-1 --ulimit stack=67108864  \
    -v /mnt/:/mnt/ \
    egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-xpu-pytorch:[tag]
  4. 执行推理测试,测试vLLM推理对话功能。

    1. 启动Server服务。

      python3 -m vllm.entrypoints.openai.api_server \
      --model /mnt/Qwen2.5-7B-Instruct \
      --trust-remote-code --disable-custom-all-reduce \
      --tensor-parallel-size 1
    2. Client端进行测试。

      curl http://localhost:8000/v1/chat/completions \
          -H "Content-Type: application/json" \
          -d '{
          "model": "/mnt/Qwen2.5-7B-Instruct",  
          "messages": [
          {"role": "system", "content": "你是个友善的AI助手。"},
          {"role": "user", "content": "介绍一下深度学习。"}
          ]}'
      更多关于vLLM的使用方法请参见vLLM

使用建议

  • SDK 2.1.0 各框架支持的标准量化能力:

    • vLLM 0.18.0 (on SDK 2.1): per-token/per-channel w8a8(int8)

    • vLLM 0.19.0: per-token/per-channel w8a8(int8)

    • SGLang v0.5.9 (on SDK 2.1): per-token/per-channel w8a8(int8)、AWQ(w4a16)、GPTQ (w4a16、w8a16)

    • SGLang v0.5.10: per-token/per-channel w8a8(int8)、AWQ(w4a16)、GPTQ (w4a16、w8a16)

    • 量化能力注意事项:

      • 目前 AWQ 和 GPTQ 未深度优化存在性能问题,后续视业务需要进行针对性优化。建议优先使用PTG提供的a8w8(int8)量化方案。SGLang运行 a8w8(int8)量化模型需要加--quantization w8a8_int8选项。

      • 目前 SAIL vLLM 暂未对 Marlin kernel 进行适配和优化,AWQ(w4a16)、GPTQ(w4a16、w8a16)性能较差,请使用 w8a8(int8)量化方案。

    • A8W8(INT8)量化演示模型。

      • 提供适配SDK2.1的量化模型示例,系统登录账密复用 PTG PIP 账密(可联系您的客户经理获取):

        • DeepSeek-R1:支持 per-token/per-channel a8w8(int8)量化方案

        • DeepSeek v3.2:支持 per-token/per-channel a8w8(int8)量化方案

        • Kimi-K2-Instruct:支持 per-token/per-channel a8w8(int8)量化方案

        • Qwen3-235B-A22B:支持 per-token/per-channel a8w8(int8)量化方案

        • GLM-5:支持 per-token/per-channel w8a8(int8)量化方案

        • MiniMax-M2.5:支持 per-token/per-channel w8a8(int8)量化方案

        • Qwen3.5-397B-A17B:支持 per-token/per-channel w8a8(int8)量化方案

        • GLM-5.1:支持 per-token/per-channel w8a8(int8)量化方案

  • 建议配合最新版本驱动使用本镜像获得最佳性能,设置方法请参考ACS GPU Pod指定GPU型号和驱动版本GPU驱动版本说明

  • ACS环境使用AcclEP-P(即PPU版本的DeepEP),需要设置环境变量export EIC_VSOLAR=1(本镜像需要设置,预计后续镜像移除该限制)。

  • 本镜像内置环境变量NCCL_SOCKET_IFNAME需要根据使用场景动态调整:

    • 当单Pod只申请了1/2/4/8卡进行推理任务时:需要设置NCCL_SOCKET_IFNAME=eth0(本推理镜像内默认配置)。

    • 当单Pod申请了整机的16卡(此时您可以使用HPN高网)进行推理任务时:需要设置NCCL_SOCKET_IFNAME=hpn0

  • 本镜像建议配合使用阿里云提供的PPU PIP服务,支持在ACS VPC内一站式免密使用PIP服务,不需要再组合使用其他PIP源。本镜像内已经内置了相应的pip config,还需要您结合您的使用场景根据文档的指引做必要的配置。

Known Issues

  • vLLM0.18.0镜像

    • GLM-5模型运行需要升级 transformers==5.2.0

    • DP+EP+DeepEP low latency问题:

      • 第一次启动server需要设置export VLLM_ENGINE_READY_TIMEOUT_S=6000,否则可能会因DeepGemm warmup编译超时导致服务启动失败。社区在GU8TF卡型上存在相同问题。

      • 对于 Qwen3 MoE BF16 的场景存在精度问题。社区同样存在该精度问题。请不要使用DP+EP+DeepEP low latency这种组合启动Qwen3 MoE BF16 模型权重。

    • MiniMax-M2.5模型 TP=16时会导致服务启动失败,请使用TP=8 运行int8量化权重。

    • --gpu_memory_utilization的值高于0.96时,会概率性遇到HGGC OOM问题,调低gpu_memory_utilization可避免该问题。

    • 开启Flashinfer Sampler可以获得性能提升,但可能会导致精度掉点(默认关闭该功能)。社区同样存在该问题。可通过VLLM_USE_FLASHINFER_SAMPLER环境变量控制该功能的开启或关闭。

    • 如果使用 DeepGemm backend,在服务启动阶段则会自动进行 warmup,编译出需要用到的 DeepGemm kernel,可能会带来较长的 warmup 时间:

      • warmup时间较长。推荐做法是通过环境变量指定deepgemm cache 路径export DG_CACHE_DIR=<your path>,从而避免重复编译。

      • 可以通过export VLLM_DEEP_GEMM_WARMUP="skip"跳过 DeepGemm warmup,测试性能过程中请确保未出现 DeepGemm JiT 编译,否则会导致性能下降。

    • 量化方面,目前 SAIL vLLM 版本暂未对 Marlin kernel 进行适配和优化,AWQ(w4a16)、GPTQ (w4a16、w8a16)、mxfp4 性能较差,请使用 int8 w8a8 量化方案。

  • vLLM0.19.0镜像

    • GLM-5模型运行需要升级 transformers==5.2.0

    • DP+EP+DeepEP low latency问题:

      • 第一次启动server需要设置export VLLM_ENGINE_READY_TIMEOUT_S=6000,否则可能会因DeepGemm warmup编译超时导致服务启动失败。社区在GU8TF卡型上存在相同问题。

      • 对于 Qwen3 MoE BF16 的场景存在精度问题。社区同样存在该精度问题。请不要使用DP+EP+DeepEP low latency这种组合启动Qwen3 MoE BF16 模型权重。

    • MiniMax-M2.5模型 TP=16时会导致服务启动失败,请使用TP=8 运行int8量化权重。

    • --gpu_memory_utilization的值高于0.96时,会概率性遇到HGGC OOM问题,调低gpu_memory_utilization可避免该问题。

    • 开启Flashinfer Sampler可以获得性能提升,但可能会导致精度掉点(默认关闭该功能)。社区同样存在该问题。可通过VLLM_USE_FLASHINFER_SAMPLER环境变量控制该功能的开启或关闭。

    • 如果使用 DeepGemm backend,在服务启动阶段则会自动进行 warmup,编译出需要用到的 DeepGemm kernel,可能会带来较长的 warmup 时间:

      • warmup时间较长。推荐做法是通过环境变量指定deepgemm cache 路径export DG_CACHE_DIR=<your path>,从而避免重复编译。

      • 可以通过export VLLM_DEEP_GEMM_WARMUP="skip"跳过 DeepGemm warmup,测试性能过程中请确保未出现 DeepGemm JiT 编译,否则会导致性能下降。

    • 量化方面,目前 SAIL vLLM 版本暂未对 Marlin kernel 进行适配和优化,AWQ(w4a16)、GPTQ (w4a16、w8a16)、mxfp4 性能较差,请使用 int8 w8a8 量化方案。

    • 同步更新的Pytorch 2.10.0,社区建议安装Triton 3.6配套使用,目前实际预安装Triton 3.5版本,存在可能不兼容和性能不优化的问题。

  • SGLang0.5.9镜像

    • 社区的临时解决方案是改写tilelang act_quanttriton kernel,从而在运行时不会import tilelang,但因为复用了tilelang mqa_logits相关的 kernel,所以无法移除对 tilelang 的依赖,因此将 flashinfer 暂时回退到适配 tvm-ffi 前的 v0.4.0rc3 版本。待不同社区 flashinfer/tilelang/sglang 使用统一的 tvm-ffi 版本后,将会在后续镜像版本回退这个改动。

    • AWQ 和 GPTQ 未深度优化存在性能问题,后续视业务需要进行针对性优化。建议优先使用PTG提供的int8量化方案。

    • 运行 a8w8(int8)量化模型需要加--quantization w8a8_int8选项。

    • 目前 SGLang 里各个模型对于 Transformers 的版本要求不同,请默认使用 4.57.1 版本。

      • 目前已知 GLM5 系列模型与 Qwen3.5 系列模型需要升级 transformers 到 5.3.0。

      • 如果遇到其他模型启动错误,请先尝试升级 transformers 版本到 5.3.0:pip install transformers==5.3.0 --force-reinstall --no-deps && pip install huggingface_hub==1.4.1

  • SGLang0.5.10镜像

    • 如果使用的是 SGLang_v0.5.10 的镜像且镜像中的flashinfer==0.6.7.post2,如果遇到flashinfer::rmsnorm 的报错,请通过设置环境变量规避:export FLASHINFER_USE_CUDA_NORM=1

    • SGLang 0.5.10在服务启动阶段会自动进行warmup,编译出需要用到的DeepGemm kernel,有以下注意事项:

      • warmup时间较长,推荐通过--watchdog-timeout--dist-timeout增加服务超时时间,例如--watchdog-timeout 3600 --dist-timeout 3600

      • 可通过SGLANG_JIT_DEEPGEMM_PRECOMPILE关闭deepgemm warmup,测试性能过程中请确保未出现DeepGemm JiT编译,否则会导致性能下降。

    • 目前 SGLang 里各个模型对于 Transformers 的版本要求不同,请默认使用 4.57.1 版本。

      • 目前已知 GLM5 系列模型与 Qwen3.5 系列模型需要升级 transformers 到 5.3.0。

      • 如果遇到其他模型启动错误,请先尝试升级 transformers 版本到 5.3.0:pip install transformers==5.3.0 --force-reinstall --no-deps && pip install huggingface_hub==1.4.1