inference-xpu-pytorch-opt
本文介绍inference-xpu-pytorch-opt镜像版本发布记录。
PPU SDK 1.7.0之前的绑定SDK发布Python软件包的方式会导致迭代周期过长,难以满足日益加快的社区更新节奏。从PPU SDK 1.7.0开始PPU运行环境实现了Python软件包与PPU SDK解耦机制:PPU SDK只有重大功能增强/更新才发布版本,不再按月迭代;社区新模型、框架会通过Python 软件包敏捷发布来支持。
由于PPU SDK迭代节奏的变化,PPU容器镜像也不再按月迭代,PPU容器镜像跟随PPU SDK发布同步更新版本,作为后续新SDK版本前的Base运行环境。新模型/新框架可以在最新的Base运行环境上自行升级获得相应功能/特性的支持。
Main Features and Bug Fix Lists
Main Features
PPU SDK 升级至 1.7.0,CUDA 升级至 12.9、PyTorch核心组件升级至2.8。
内置支持SGLang 0.5.4.post3,支持专家并行和PD分离特性优化。
Bugs Fix
无
Contents
镜像名 | inference-xpu-pytorch-opt |
镜像TAG | sglang0.5.4.post3-250105 |
应用场景 | 多机SGLang推理 |
框架 | pytorch |
Requirements | PPU SDK 1.7.0.post1 |
核心组件 |
|
镜像Assets
公网镜像
egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-xpu-pytorch-opt:sglang0.5.4.post3-250105
Driver Requirements
Driver version >= 1.1.0
Key Features and Enhancements
专家并行和PD分离特性优化
PD分离模型推理提供将模型推理的 Prefill 和 Decode 两阶段负载分离至不同实例上执行的能力。基于Prefill和Decode阶段所具备的不同负载特征,PD分离部署相比开源框架具有更高的服务性能。
专家并行是 MoE 模型工程化中性能提升的关键。由于在 FFN 阶段每个token只会分发给 TopK 个专家,导致每个专家只处理部分的token,计算效率很低。专家并行核心思想是将模型中的“Expert”模块(即子模型)按功能或参数分配到不同的计算设备上,每个设备仅负责特定专家的计算任务。这种并行方式通过解耦模型规模与硬件资源限制,允许模型扩展至万亿级参数规模,同时通过动态路由机制(如门控网络)将输入数据分发到最匹配的专家处理,从而提升计算效率。
该特性仅适用于inference-nv-pytorch-opt镜像,如需使用该特性请联系您的客户经理(BTE)来制定方案。
ACCL通信库
ACCL是阿里针对灵骏产品自研的高性能网络通信库,针对GPU、PPU和AMD三个场景提供ACCL-N、ACCL-P和ACCL-R三个版本。ACCL-N是阿里云基于英伟达NCCL定制后提供的高性能通信库,在完全兼容NCCL的基础上,修复了官方NCCL版本的一些BUG,并进行了性能和稳定性相关的优化。ACCL-P是基于平头哥开源通信库pccl,进行二次开发的集合通信库。ACCL-R是基于AMD Rocm开源通信库rccl,进行二次开发的集合通信库。本版本主要将ACCL/ACCL-N上实现的主要特性移植到了pccl上,修复了一些问题,结合高网的相关自研产品组件进行了深度定制。
E2E性能益评估
如需获取PerfHub对外性能数据,请联系您的客户经理(BTE)。
Quick Start
PD分离部署
该镜像支持PD分离部署使用,建议通过您的客户经理(BTE)制定解决方案。更多内容,请参见ACS PD分离部署 MoE模型(EP优化)最佳实践。
非PD分离部署
以下示例内容仅通过Docker方式拉取inference-xpu-pytorch-opt镜像,并使用Qwen2.5-7B-Instruct模型测试推理服务。
在ACS中使用inference-xpu-pytorch-opt镜像可以通过控制台创建工作负载时输入指定镜像地址,或者通过YAML文件指定镜像引用。
在ACS环境下使用xpu大模型推理镜像的使用指导,请参见ACS集群形态的LLM大模型推理镜像使用指导。
在ACS环境下部署DeepSeek推理服务的使用指导,请参见在ACS中使用PPU快速部署DeepSeek V3/R1推理服务。
拉取推理容器镜像。
说明通过公网拉取ACS AI容器镜像需要先获取鉴权密钥。建议您使用VPC方式加速拉取AI容器镜像,减少镜像拉取的时间。
docker pull egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-xpu-pytorch-opt:[tag]从ModelScope下载开源模型。
pip install modelscope cd /mnt modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-Instruct启动以下命令进入容器。
docker run -d -t --network=host --privileged --init --ipc=host \ --ulimit memlock=-1 --ulimit stack=67108864 \ -v /mnt/:/mnt/ \ egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-xpu-pytorch-opt:[tag]执行推理测试,测试推理对话功能。
启动Server端服务。
python3 -m sglang.launch_server \ --model-path /mnt/Qwen2.5-7B-Instruct \ --tensor-parallel-size 1在Client端进行测试。
curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "/mnt/Qwen2.5-7B-Instruct", "messages": [ {"role": "system", "content": "你是个友善的AI助手。"}, {"role": "user", "content": "介绍一下深度学习。"} ]}'输出如下所示:

使用建议
镜像中的改动涉及PyTorch等库,请勿重装。
SDK 1.7.0 各框架支持的标准量化能力:
提供适配SDK1.7.0的量化模型示例,系统登录账密复用 PTG PIP 账密(如无,可联系您的客户经理获取):
DeepSeek-R1:支持 per-token/per-channel a8w8(int8)量化方案
DeepSeek v3.2:支持 per-token/per-channel a8w8(int8)量化方案
Kimi-K2-Instruct:支持 per-token/per-channel a8w8(int8)量化方案
Qwen3-235B-A22B:支持 per-token/per-channel a8w8(int8)量化方案
建议配合“1.5.1”及以上版本驱动使用本镜像获得最佳性能,设置方法请参考为ACS GPU Pod指定GPU型号和驱动版本和GPU驱动版本说明。
在ACS环境使用AcclEP-P(即PPU版本的DeepEP) ,需要设置环境变量
export EIC_VSOLAR=1(本镜像需要设置,预计后续镜像移除该限制)。本镜像内置环境变量
NCCL_SOCKET_IFNAME需要根据使用场景动态调整:当单Pod只申请了1/2/4/8卡进行训练/推理任务时:需要设置
NCCL_SOCKET_IFNAME=eth0(本镜像内默认配置)。当单Pod申请了整机的16卡(此时您可以使用HPN高网)进行训练/推理任务时:需要设置
NCCL_SOCKET_IFNAME=hpn0。
本镜像建议配合使用“在ACS产品使用阿里云提供的PPU PIP服务”,支持在ACS VPC内一站式免密使用PIP服务,不需要再组合使用其他PIP源。本镜像内已经内置了相应的pip config,还需要您结合您的使用场景根据文档的指引做必要的配置。