inference-xpu-pytorch 26.01

更新时间:
复制为 MD 格式

本文介绍inference-xpu-pytorch 26.01版本发布记录。

Main Features and Bug Fix Lists

Main Features

  • 基础镜像PPU SDK升级至 2.0.0

  • vLLM镜像发布 vLLM0.12.0、vLLM0.14.0、vLLM0.15.0、vLLM0.16.0 vLLM0.18.0 五个版本镜像。

  • SGLang镜像发布 SGLang0.5.6SGLang0.5.7SGLang0.5.8 SGLang0.5.9 四个版本镜像。

  • vLLM0.14.0、vLLM0.15.0、vLLM0.16.0、vLLM0.18.0 和 SGLang0.5.7、SGLang0.5.8、SGLang0.5.9 镜像的 Torch 版本升级至 2.9

Bug Fix

  • vLLM0.16.0 修复了如下问题:

    • 修复GLM-5 回答乱码问题。

    • 修复Qwen3.5-35B-A3B 模型 TP=2 时服务启动失败问题。

  • SGLang0.5.9 修复了如下问题:

    • 修复社区 bench_serving 在测试图片+文本混合随机输入时,偶现的越界问题。

    • 修复GLM4.5V tp_size==8 时启动报错的问题。

    • 修复社区 Deepseek-V3.2 使用 NSA 后端时,未根据设备类型选择计算接口导致的报错。

    • 修复了Qwen3 混合 Int8/BF16 量化模型(前 90 层 Int8,后 4 层 BF16)的支持。

    • 修复 _fwd_kernel_ep_scatter_1 triton kernel 中因 warp racing 未有同步导致数据不一致问题。

    • 修复社区 DeepSeek awq/gptq量化获取不到weight的问题。

    • 修复社区MTP draft modeltarget model量化方法不一致时,draft model走到不支持的量化方法的问题。

Contents

镜像名称

inference-xpu-pytorch

镜像Tag

26.01-v2.0.0-vllm0.12.0-torch2.8-cu129-20260127

26.01-v2.0.0-sglang0.5.6-torch2.8-cu129-20260126

26.01-v2.0.0-vllm0.14.0-torch2.9-cu129-20260209

26.01-v2.0.0-sglang0.5.7-torch2.9-cu129-20260209

26.01-v2.0.0-vllm0.15.0-torch2.9-cu129-20260212

26.01-v2.0.0-sglang0.5.8-torch2.9-cu129-20260212

26.01-v2.0.0-vllm0.16.0-torch2.9-cu129-20260316

26.01-v2.0.0-sglang0.5.9-torch2.9-cu129-20260316

26.01-v2.0.0-vllm0.18.0-torch2.9-cu129-20260330

应用场景

大模型推理

大模型推理

大模型推理

大模型推理

大模型推理

大模型推理

大模型推理

大模型推理

大模型推理

框架

pytorch

pytorch

pytorch

pytorch

pytorch

pytorch

pytorch

pytorch

pytorch

Requirements

PPU SDK V2.0.0

PPU SDK V2.0.0

PPU SDK V2.0.0

PPU SDK V2.0.0

PPU SDK V2.0.0

PPU SDK V2.0.0

PPU SDK V2.0.0

PPU SDK V2.0.0

PPU SDK V2.0.0

系统组件

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.8.0

  • CUDA 12.9

  • ACCL-P 2.0.0-10.2-accl-p

  • AcclEP-P 2.0.0.0+528a949

  • eic-sdk 1.3.9.cuda12.2404.ppu.202601131844

  • eic-sailshmem 2.0.0.0.g506276b

  • deep_gemm 1.0.0+ppu2.0.0.post1

  • diffusers 0.35.2

  • flash-attn 2.7.4.post1

  • flash-attn-3 3.0.0b1

  • flash_mla 1.0.0

  • flashinfer-python 0.5.3+ppu2.0.0

  • imageio-ffmpeg 0.6.0

  • mooncake-transfer-engine 0.3.6.post1

  • peft 0.12.0

  • ray 2.53.0

  • xformers 0.0.30

  • transformers 4.57.0

  • transformer_engine 2.5.0+de1021a

  • triton 3.4.0+gitd427786a

  • torchao 0.11.0

  • torchvision 0.23.0

  • torchaudio 2.8.0

  • vllm 0.12.0+ppu2.0.0

  • xgrammar 0.1.23

  • xfuser 0.4.5

  • ljperf 0.1.0+477686c5

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.8.0

  • CUDA 12.9

  • ACCL-P 2.0.0-10.2-accl-p

  • AcclEP-P 2.0.0.0+528a949

  • eic-sdk 1.3.9.cuda12.2404.ppu.202601131844

  • eic-sailshmem 2.0.0.0.g506276b

  • diffusers 0.35.2

  • decord 0.6.0

  • decord2 3.0.0

  • deep_gemm 1.0.0+a02d18c

  • flash-attn 2.8.2

  • flash-attn-3 3.0.0b1

  • flash_mla 1.0.0

  • flashinfer-python 0.5.3

  • imageio-ffmpeg 0.6.0

  • mooncake-transfer-engine 0.3.6.post1

  • peft 0.12.0

  • ray 2.53.0

  • sglang 0.5.6

  • sgl-kernel 0.3.18.post2

  • transformers 4.57.1

  • transformer_engine 2.3.0+eb92009

  • torchao 0.9.0+git14cfbc740

  • triton 3.4.0+gitd427786a

  • vllm 0.10.2+cu129

  • xformers 0.0.29.post1

  • xgrammar 0.1.27

  • xfuser 0.4.5

  • ljperf 0.1.0+477686c5

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.9.0

  • CUDA 12.9

  • ACCL-P 2.0.0-10.2-accl-p

  • AcclEP-P 2.0.0.0+528a949

  • eic-sdk 1.3.9.cuda12.2404.ppu.202602091359

  • eic-sailshmem 2.0.0.0.g506276b

  • deep_gemm 1.0.0+a02d18c

  • diffusers 0.35.2

  • flash-attn 2.7.4.post1

  • flash-attn-3 3.0.0b1

  • flash_mla 1.0.0

  • flashinfer-python 0.5.3+ppu2.0.0

  • imageio-ffmpeg 0.6.0

  • mooncake-transfer-engine 0.3.6.post1

  • peft 0.12.0

  • ray 2.53.0

  • xformers 0.0.30

  • transformers 4.57.1

  • transformer_engine 2.5.0+de1021a

  • triton 3.5.0+git4328cd8b

  • torchao 0.11.0

  • torchvision 0.24.0

  • torchaudio 2.9.0

  • vllm 0.14.0

  • xgrammar 0.1.23

  • xfuser 0.4.5

  • ljperf 0.1.0+477686c5

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.9.0

  • CUDA 12.9

  • ACCL-P 2.0.0-10.2-accl-p

  • AcclEP-P 2.0.0.0+528a949

  • eic-sdk 1.3.9.cuda12.2404.ppu.202602091359

  • eic-sailshmem 2.0.0.0.g506276b

  • diffusers 0.35.2

  • decord 0.6.0

  • decord2 3.0.0

  • deep_gemm 1.0.0+a02d18c

  • flash-attn 2.7.4.post1

  • flash-attn-3 3.0.0b1

  • flash_mla 1.0.0

  • flashinfer-python 0.5.3

  • imageio-ffmpeg 0.6.0

  • mooncake-transfer-engine 0.3.6.post1

  • peft 0.12.0

  • ray 2.31.0

  • sglang 0.5.7

  • sgl-kernel 0.3.20

  • transformers 4.57.1

  • transformer_engine 2.3.0+eb92009

  • torchao 0.9.0+git14cfbc740

  • triton 3.5.0+git4328cd8b

  • torchvision 0.24.0

  • torchaudio 2.9.0

  • xformers 0.0.29.post1

  • xgrammar 0.1.27

  • xfuser 0.4.5

  • ljperf 0.1.0+477686c5

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.9.0

  • CUDA 12.9

  • ACCL-P 2.0.0-10.2-accl-p

  • AcclEP-P 2.0.0.0+528a949

  • eic-sdk 1.3.9.cuda12.2404.ppu.202602091359

  • eic-sailshmem 2.0.0.0.g506276b

  • deep_gemm 1.0.0+ppu2.0.0.post2

  • diffusers 0.35.2

  • flash-attn 2.7.4.post1

  • flash-attn-3 3.0.0b1

  • flash_mla 1.0.0

  • flashinfer-python 0.6.1+ppu2.0.0

  • imageio-ffmpeg 0.6.0

  • mooncake-transfer-engine 0.3.6.post1

  • peft 0.12.0

  • ray 2.53.0

  • xformers 0.0.30

  • transformers 4.57.0

  • transformer_engine 2.5.0+de1021a

  • triton 3.5.0+git4328cd8b

  • torchao 0.11.0

  • torchvision 0.24.0

  • torchaudio 2.9.0

  • vllm 0.15.0+ppu2.0.0

  • xgrammar 0.1.23

  • xfuser 0.4.5

  • ljperf 0.1.0+477686c5

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.9.0

  • CUDA 12.9

  • ACCL-P 2.0.0-10.2-accl-p

  • AcclEP-P 2.0.0.0+528a949

  • eic-sdk 1.3.9.cuda12.2404.ppu.202602091359

  • eic-sailshmem 2.0.0.0.g506276b

  • diffusers 0.35.2

  • decord 0.6.0

  • decord2 3.0.0

  • deep_gemm 1.0.0+a02d18c

  • flash-attn 2.7.4.post1

  • flash-attn-3 3.0.0b1

  • flash_mla 1.0.0

  • flashinfer-python 0.6.1+ppu2.0.0

  • imageio-ffmpeg 0.6.0

  • mooncake-transfer-engine 0.3.6.post1

  • peft 0.12.0

  • ray 2.31.0

  • sglang 0.5.8+ppu2.0.0

  • sgl-kernel 0.3.21+ppu2.0.0

  • transformers 4.57.1

  • transformer_engine 2.3.0+eb92009

  • torchao 0.9.0+git14cfbc740

  • triton 3.5.0+git4328cd8b

  • torchvision 0.24.0

  • torchaudio 2.9.0

  • xformers 0.0.29.post1

  • xgrammar 0.1.27

  • xfuser 0.4.5

  • ljperf 0.1.0+477686c5

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.9.0

  • CUDA 12.9

  • ACCL-P 2.0.0-10.3-accl-p

  • AcclEP-P 2.0.0.1+946e9a8

  • eic-sdk 1.3.9.cuda12.2404.ppu.202603121001

  • eic-sailshmem 2.0.0.0.g506276b

  • deep_gemm 1.0.0+ppu2.0.0.post2

  • diffusers 0.35.2

  • flash-attn 2.7.4.post1

  • flash-attn-3 3.0.0b1

  • flash_mla 1.0.0

  • flashinfer-python 0.6.3+ppu2.0.0

  • imageio-ffmpeg 0.6.0

  • mooncake-transfer-engine 0.3.6.post1

  • peft 0.12.0

  • ray 2.53.0

  • xformers 0.0.30

  • transformers 5.2.0

  • transformer_engine 2.5.0+de1021a

  • triton 3.5.0+git4328cd8b

  • torchao 0.11.0

  • torchvision 0.24.0

  • torchaudio 2.9.0

  • vllm 0.16.0+ppu2.0.0

  • xgrammar 0.1.23

  • xfuser 0.4.5

  • ljperf 0.1.0+477686c5

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.9.0

  • CUDA 12.9

  • ACCL-P 2.0.0-10.3-accl-p

  • AcclEP-P 2.0.0.1+946e9a8

  • eic-sdk 1.3.9.cuda12.2404.ppu.202603121001

  • eic-sailshmem 2.0.0.0.g506276b

  • diffusers 0.35.2

  • decord 0.6.0

  • decord2 3.0.0

  • deep_gemm 1.0.0+a02d18c

  • flash-attn 2.7.4.post1

  • flash-attn-3 3.0.0b1

  • flash_mla 1.0.0

  • flashinfer-python 0.6.1+ppu2.0.0

  • imageio-ffmpeg 0.6.0

  • mooncake-transfer-engine 0.3.6.post1

  • peft 0.12.0

  • ray 2.31.0

  • sglang 0.5.9+ppu2.0.0

  • sgl-kernel 0.3.21+ppu2.0.0

  • transformers 5.2.0

  • transformer_engine 2.3.0+eb92009

  • torchao 0.9.0+git14cfbc740

  • triton 3.5.0+git4328cd8b

  • torchvision 0.24.0

  • torchaudio 2.9.0

  • xformers 0.0.29.post1

  • xgrammar 0.1.27

  • xfuser 0.4.5

  • ljperf 0.1.0+477686c5

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.9.0

  • CUDA 12.9

  • ACCL-P 2.0.0-10.3-accl-p

  • AcclEP-P 2.0.0.1+946e9a8

  • eic-sdk 1.3.9.cuda12.2404.ppu.202603121001

  • eic-sailshmem 2.0.0.0.g506276b

  • deep_gemm 1.0.0+ppu2.0.0.post2

  • diffusers 0.35.2

  • flash-attn 2.7.4.post1

  • flash-attn-3 3.0.0b1

  • flash_mla 1.0.0

  • flashinfer-python 0.6.4+ppu2.0.0

  • imageio-ffmpeg 0.6.0

  • mooncake-transfer-engine 0.3.6.post1

  • peft 0.12.0

  • ray 2.53.0

  • xformers 0.0.30

  • transformers 4.57.0

  • transformer_engine 2.5.0+de1021a

  • triton 3.5.0+git4328cd8b

  • torchao 0.11.0

  • torchvision 0.24.0

  • torchaudio 2.9.0

  • vllm 0.18.0+ppu2.0.0

  • xgrammar 0.1.23

  • xfuser 0.4.5

  • ljperf 0.1.0+477686c5

镜像Asset

建议您使用VPC方式加速拉取AI容器镜像,减少镜像拉取的时间。

公网镜像

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-xpu-pytorch:26.01-v2.0.0-vllm0.12.0-torch2.8-cu129-20260127

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-xpu-pytorch:26.01-v2.0.0-sglang0.5.6-torch2.8-cu129-20260126

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-xpu-pytorch:26.01-v2.0.0-vllm0.14.0-torch2.9-cu129-20260209

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-xpu-pytorch:26.01-v2.0.0-sglang0.5.7-torch2.9-cu129-20260209

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-xpu-pytorch:26.01-v2.0.0-vllm0.15.0-torch2.9-cu129-20260212

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-xpu-pytorch:26.01-v2.0.0-sglang0.5.8-torch2.9-cu129-20260212

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-xpu-pytorch:26.01-v2.0.0-vllm0.16.0-torch2.9-cu129-20260316

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-xpu-pytorch:26.01-v2.0.0-sglang0.5.9-torch2.9-cu129-20260316

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-xpu-pytorch:26.01-v2.0.0-vllm0.18.0-torch2.9-cu129-20260330

VPC镜像

将指定的AI容器镜像Asset URIegslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/{image:tag}替换为acs-registry-vpc.{region-id}.cr.aliyuncs.com/egslingjun/{image:tag}即可在VPC内快速拉取PPU AI容器镜像。

  • {region-id}:ACS产品开服地域(包括金融云、政务云等)的地域ID。例如:cn-beijingcn-wulanchabucn-shanghai-finance-1等。

  • {image:tag}:AI容器镜像的名称和Tag。例如:inference-xpu-pytorch:25.11-v1.7.0-vllm0.10.2-torch2.8-cu129-20251113training-xpu-pytorch:25.11等。

E2E性能评估

vLLM在线推理模式下,设置输入输出Token长度为4096/2048,控制TTFT < 3s 且 TPOT < 100ms,测试满足条件的最大并发量,对比吞吐。

  • DeepSeek-R1-bf16 :真武810E 单机 output token throughput 是 V1.7.0 的 110%

  • DeepSeek-R1-W8A8:真武810E 单机 output token throughput 是 V1.7.0 的 118%

image.png

Quick Start

以下示例内容仅通过Docker方式拉取inference-xpu-pytorch镜像,并使用Qwen2.5-7B-Instruct模型测试推理服务。

说明

ACS中使用inference-xpu-pytorch镜像可以通过控制台创建工作负载时输入指定镜像地址,或者通过YAML文件指定镜像引用。

  1. 拉取推理容器镜像。

    建议您使用VPC方式加速拉取AI容器镜像,减少镜像拉取的时间。
    docker pull egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-xpu-pytorch:[tag]
  2. ModelScope下载开源模型。

    pip install modelscope
    cd /mnt
    modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-Instruct
  3. 启动以下命令进入容器。

    docker run -d -t --network=host --privileged --init --ipc=host \
    --ulimit memlock=-1 --ulimit stack=67108864  \
    -v /mnt/:/mnt/ \
    egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-xpu-pytorch:[tag]
  4. 执行推理测试,测试vLLM推理对话功能。

    1. 启动Server端服务。

      python3 -m vllm.entrypoints.openai.api_server \
      --model /mnt/Qwen2.5-7B-Instruct \
      --trust-remote-code --disable-custom-all-reduce \
      --tensor-parallel-size 1
    2. Client端进行测试。

      curl http://localhost:8000/v1/chat/completions \
          -H "Content-Type: application/json" \
          -d '{
          "model": "/mnt/Qwen2.5-7B-Instruct",  
          "messages": [
          {"role": "system", "content": "你是个友善的AI助手。"},
          {"role": "user", "content": "介绍一下深度学习。"}
          ]}'

      输出如下所示:

      image.png

      更多关于vLLM的使用方法,请参见vLLM

使用建议

  • SDK 2.0.0 各框架支持的标准量化能力:

    • SAIL vLLM 0.12.0/0.14.0/0.15.0/0.16.0/0.18.0 支持的标准量化能力:per-token/per-channel w8a8(int8)

      目前 SAIL vLLM 0.12.0/0.14.0/0.15.0/0.16.0/0.18.0 暂未对 Marlin kernel 进行适配和优化,AWQ(w4a16)、GPTQ (w4a16、w8a16)、mxfp4 性能较差,请使用 int8 w8a8 量化方案。
    • SAIL SGLang 0.5.6/0.5.7/0.5.8/0.5.9 支持的标准量化能力:per-token/per-channel w8a8(int8)、AWQ(w4a16)、GPTQ (w4a16、w8a16)

      目前 SAIL SGLang 0.5.6/0.5.7/0.5.8/0.5.9 AWQ 和 GPTQ 未深度优化存在性能问题,后续视业务需要进行针对性优化。建议优先使用PTG提供的int8量化方案。运行 a8w8(int8)量化模型需要加--quantization w8a8_int8选项。
    • A8W8(INT8)量化演示模型

      • 提供适配SDK2.0的量化模型示例,系统登录账密复用 PTG PIP 账密(如无,可联系您的客户经理获取):

        • DeepSeek-R1:支持 per-token/per-channel a8w8(int8)量化方案

        • DeepSeek v3.2:支持 per-token/per-channel a8w8(int8)量化方案

        • Kimi-K2-Instruct:支持 per-token/per-channel a8w8(int8)量化方案

        • Qwen3-235B-A22B:支持 per-token/per-channel a8w8(int8)量化方案

        • GLM-5:支持 per-token/per-channel w8a8(int8)量化方案

        • MiniMax-M2.5:支持 per-token/per-channel w8a8(int8)量化方案

        • Qwen3.5-397B-A17B:支持 per-token/per-channel w8a8(int8)量化方案

  • 建议配合最新版本驱动使用本镜像获得最佳性能,设置方法请参考ACS GPU Pod指定GPU型号和驱动版本GPU驱动版本说明

  • ACS环境使用AcclEP-P(即PPU版本的DeepEP),需要设置环境变量export EIC_VSOLAR=1(本镜像需要设置,预计后续镜像移除该限制)。

  • 本镜像内置环境变量NCCL_SOCKET_IFNAME需要根据使用场景动态调整:

    • 当单Pod只申请了1/2/4/8卡进行推理任务时:需要设置NCCL_SOCKET_IFNAME=eth0(本推理镜像内默认配置)。

    • 当单Pod申请了整机的16卡(此时您可以使用HPN高网)进行推理任务时:需要设置NCCL_SOCKET_IFNAME=hpn0

  • 本镜像建议配合使用“阿里云提供的PPU PIP服务”,支持在ACS VPC内一站式免密使用PIP服务,不需要再组合使用其他PIP源。本镜像内已经内置了相应的pip config,还需要您结合您的使用场景根据文档的指引做必要的配置。

  • 在对TTFT有严格要求的场景下,可以添加sever args:--no-async-scheduling以降低TTFT。

Known Issues

  • vLLM0.12.0/0.14.0/0.15.0/0.16.0镜像

    • 在 DP + EP 模式,使用 DeepEP low latency 的情况,对于 Qwen3 MoE BF16 存在精度问题。社区同样存在该精度问题。

    • Kimi-linear 模型使用DeepGemm将会导致server启动失败。请使用Acext MoE backend。

      # 设置环境变量,使用Acext MoE backend
      export VLLM_USE_DEEP_GEMM=0
      export USE_ACEXT_CUDA=1
    • 如果使用 DeepGemm backend,server 启动阶段则会自动进行 warmup,编译出需要用到的 DeepGemm kernel,可能会带来较长的 warmup 时间:

      • warmup时间较长。推荐做法是通过环境变量指定deepgemm cache 路径:export DG_CACHE_DIR=<your-path>,从而避免重复编译。

      • 可以通过export VLLM_DEEP_GEMM_WARMUP="skip"跳过 DeepGemm warmup,测试性能过程中请确保未出现 DeepGemm JiT 编译,否则会导致性能下降。

  • SGLang0.5.6/0.5.7/0.5.8/0.5.9镜像在server启动阶段会自动进行warmup,编译出需要用到的DeepGemm kernel,有以下注意事项:

    • warmup时间较长,推荐通过--watchdog-timeout 和 --dist-timeout 增加server超时时间,例如--watchdog-timeout 3600 --dist-timeout 3600

    • 可通过SGLANG_JIT_DEEPGEMM_PRECOMPILE关闭deepgemm warmup,测试性能过程中请确保未出现DeepGemm JiT编译,否则会导致性能下降。

附录

vLLM 0.16.0已知问题

  • 社区vLLM0.16.0上并未支持Qwen3.5系列模型,PPU进行了部分支持,但无法支持Qwen3.5系列模型的所有功能和场景。可能会遇到的问题包括但不限于:

    • 开启MTP功能后概率性fail。

    • bfcl_v3 精度测试(enable tool call功能)fail。

  • 为适配GLM-5Qwen3.5系列模型,transformers版本已升级到5.2.0。此版本不支持Qwen VL模型, 运行Qwen VL模型需要将transformers版本降到4.57.1。

  • DP+EP+DeepEP low latency问题:

    • 第一次启动server需要设置export VLLM_ENGINE_READY_TIMEOUT_S=6000,否则server会启动失败。社区在GU8TF卡型上会存在相同问题。

    • 对于 Qwen3 MoE BF16 的场景存在精度问题。社区同样存在该精度问题。

  • MiniMax-M2.5模型 TP=16 时会导致服务启动失败,请使用TP=8 运行int8量化权重。

  • MiniMax-M2模型ifeval精度测试得分较低,GU8TF卡型上同样存在该问题。

  • --gpu_memory_utilization的值高于0.96时,低概率会因Driver OOM出现segment fault。

  • Flashinfer Sampler可能会导致精度掉点。如遇到模型精度掉点问题,可通过 export VLLM_USE_FLASHINFER_SAMPLER=0 关闭该功能。

  • Kimi-linear模型存在精度问题,社区同样存在精度问题。

  • Kimi-linear | DeepSeek-OCR 系列 模型使用 DeepGemm 将会导致 server 启动失败。请设置环境变量,使用 Acext MoE backend。

    # 设置环境变量,使用Acext MoE backend
    export VLLM_USE_DEEP_GEMM=0
    export VLLM_MOE_USE_ACEXT=1
    export VLLM_DENSE_USE_ACEXT=1
    export ACEXT_NUM_TOKENS_LIMIT=16385
  • 如果使用 DeepGemm backend,Server 启动阶段则会自动进行warmup,编译出需要用到的 DeepGemm kernel,可能会带来较长的 warmup 时间:

    • warmup时间较长,推荐通过环境变量指定deepgemm cache 路径:export DG_CACHE_DIR=<your path>,从而避免重复编译。

    • 可以通过export VLLM_DEEP_GEMM_WARMUP="skip"跳过 DeepGemm warmup,测试性能过程中请确保未出现 DeepGemm JiT 编译,否则会导致性能下降。

  • 量化方面,目前 SAIL vLLM 0.16.0 暂未对 Marlin kernel 进行适配和优化,AWQ(w4a16)、GPTQ (w4a16、w8a16)、mxfp4 性能较差,请使用 int8 w8a8 量化方案。

SGLang 0.5.9已知问题

  • SGLang 0.5.9server启动阶段会自动进行warmup,编译出需要用到的DeepGemm kernel,有以下注意事项:

    • warmup时间较长,推荐通过--watchdog-timeout 和 --dist-timeout 增加server超时时间,例如--watchdog-timeout 3600 --dist-timeout 3600

    • 可通过SGLANG_JIT_DEEPGEMM_PRECOMPILE关闭deepgemm warmup,测试性能过程中请确保未出现DeepGemm JiT编译,否则会导致性能下降。

  • 为适配GLM-5Qwen3.5系列模型,transformers版本已升级到5.2.0。此版本不支持Qwen VL模型, 运行Qwen VL模型需要将transformers版本降到4.57.1。

vLLM0.18.0已知问题

  • GLM-5模型运行需要升级 transformers==5.2.0

  • DP+EP+DeepEP low latency问题:

    • 第一次启动server需要设置export VLLM_ENGINE_READY_TIMEOUT_S=6000,否则可能会因DeepGemm warmup编译超时导致server启动失败。社区在GU8TF卡型上存在相同问题。

    • 对于 Qwen3 MoE BF16 的场景存在精度问题。社区同样存在该精度问题。请不要使用DP+EP+DeepEP low latency这种组合启动Qwen3 MoE BF16 模型权重。

  • MiniMax-M2.5模型 TP=16 时会导致服务启动失败,请使用TP=8 运行int8量化权重。

  • --gpu_memory_utilization的值高于0.96时,低概率会遇到OOM问题,导致出现segment fault错误。

  • 开启Flashinfer Sampler可以获得性能提升,但可能会导致精度掉点(默认关闭该功能)。社区同样存在该问题。可通过 VLLM_USE_FLASHINFER_SAMPLER 环境变量控制该功能的开启或关闭。

  • 如果使用 DeepGemm backend,server 启动阶段则会自动进行 warmup,编译出需要用到的 DeepGemm kernel,可能会带来较长的 warmup 时间:

    • warmup时间较长。推荐做法是通过环境变量指定deepgemm cache 路径:export DG_CACHE_DIR=<your path>,从而避免重复编译。

    • 可以通过export VLLM_DEEP_GEMM_WARMUP="skip"跳过 DeepGemm warmup,测试性能过程中请确保未出现 DeepGemm JiT 编译,否则会导致性能下降。

  • 量化方面,目前 SAIL vLLM 0.18.0 暂未对 Marlin kernel 进行适配和优化,AWQ(w4a16)、GPTQ (w4a16、w8a16)、mxfp4 性能较差,请使用 int8 w8a8 量化方案。