在GPU实例上部署Qwen3-235B-A22B

本文介绍如何在阿里云GPU实例上快速、便捷地构建Qwen3-235B-A22B的推理环境。您无需深入了解底层硬件,也无需额外配置,即可实现开箱即用。本文分别使用VLLMSGLang作为Qwen3-235B-A22B模型的推理框架。

通过本文,您将成功在阿里云GPU实例上部署Qwen3-235B-A22B模型,并获得与OpenAI API兼容的模型服务。您可以通过Chatbox调用自己的专属模型,实现与模型对话的功能。image

费用说明

如果您按照ecs.ebmgn8v规格完成部署(大约需要50分钟)操作及体验,且时间不超过 2 小时,预计费用 600 元左右。实际情况中可能会因您操作过程中实际使用的流量差异,导致费用有所变化,请以控制台显示的实际报价以及最终账单为准。

推荐规格

说明

Qwen3-235B-A22B模型参数量为235B,模型大小475GB,总计最少需要720GB显存。

推荐规格

预估费用

说明

ecs.ebmgn8v

290元/小时

ecs.ebmgn8v配备8GPU,每块GPU显存为96GB,总显存768GB,满足模型的运行要求。

操作步骤

步骤一:部署资源

  1. 为云服务器ECS实例构建云上的私有网络。

    1. 登录专有网络管理控制台,在左侧导航栏单击专有网络

    2. 专有网络页面单击创建专有网络

    3. 创建专有网络页面,配置1个专有网络和1台交换机。

      配置项

      说明

      示例值

      专有网络

      地域

      地域是指您希望创建VPC所在的地理位置。地域的选择将决定您的云服务器ECS实例的部署位置。不同地域之间网络隔离,且资源分布和可用区数量可能不同。

      华东1(杭州)

      名称

      建议您在部署过程中新建一个VPC作为本方案的专有网络。部署过程中填写VPC名称即可创建对应名称的VPC。

      VPC_QW

      IPv4网段

      在创建VPC时,您必须按照无类域间路由块(CIDR block)的格式为您的专有网络划分私网网段。阿里云VPC支持的网段信息请参见什么是专有网络

      192.168.0.0/16

      交换机

      名称

      建议您在部署过程中在新建的VPC内创建虚拟交换机。部署过程中填写交换机名称即可创建对应名称的虚拟交换机。

      vsw_001

      可用区

      建议选择排序靠后的,一般此类可用区较新。新可用区资源更充沛,新规格也会在新的可用区优先上线。

      杭州 可用区K

      IPv4网段

      虚拟交换机需要一个IPv4网段。

      192.168.0.0/24

  2. 创建安全组管理相关云资源的网络流入和流出,确保网络访问的安全性。

    1. 访问ECS控制台-安全组

    2. 在顶部菜单栏,选择华东1(杭州)地域。

    3. 安全组页面,单击创建安全组

    4. 创建安全组页面,创建安全组。

      配置项

      说明

      示例值

      安全组名称

      设置安全组的名称。

      SecurityGroup_1

      网络

      选择之前规划的专有网络VPC。

      VPC_QW

      安全组类型

      因需从公网拉取相关软件,因此选择普通安全组,以实现公网出方向所有地址可访问。实际部署时,您建议选择安全性更高的企业级安全组。

      普通安全组

      规则配置

      仅需要入方向开启3000端口号即可,其它端口号删除。

      3000

  3. 创建GPU实例并正确安装驱动,未提及配置项均使用默认配置即可。

    1. 前往实例购买页

    2. 创建GPU实例,创建过程中需注意以下配置项,未说明的参数,可使用默认值。

      配置项

      说明

      示例值

      付费类型

      付费类型影响实例的计费和收费规则。ECS 计费的详细信息请参见计费方式概述

      按量付费

      地域

      实例所在地域

      华东1(杭州)

      网络及可用区

      选择专有网络VPC和交换机。

      VPC_QW、vsw_001

      实例

      ECS的实例规格及内核、vCPU 数量。关于 ECS选型的最佳实践请参见实例规格选型指导

      ecs.ebmgn8v.48xlarge

      镜像

      ECS的“装机盘”,为ECS实例提供操作系统、预装软件等。

      公共镜像中选择 Alibaba Cloud Linux

      镜像的版本。

      Alibaba Cloud Linux 3.2104 LTS 64

      安装 GPU 驱动。

      勾选安装GPU驱动,在下拉列表中选择:

      CUDA 版本 12.4.1 / Driver 版本 550.127.08 / CUDNN 版本 9.2.0.82

      系统盘类型

      硬盘类型。

      ESSD 云盘

      系统盘容量

      硬盘容量。

      100 GiB

      数据盘

      用于存放模型。

      单击添加数据盘容量填写500GiB,勾选随实例释放

      公网 IP

      用于访问外网和提供企业门户网站服务。

      选中分配公网 IPv4 地址

      安全组

      使用之前创建的安全组。选择已有安全组

      SecurityGroup_1

      管理设置

      选择设置自定义密码,方便后续登录机器安装服务环境。

      自定义密码

步骤二:准备环境

在进行模型部署之前,需要先准备好运行环境,确保GPU资源能够被正确调用,并且通过Docker和 NVIDIA容器工具包实现环境的隔离和一致性。Docker 是一种容器化技术,能够将应用程序及其依赖打包到一个独立的容器中,确保在不同环境中运行时的一致性。而NVIDIA容器工具包则允许Docker容器直接调用GPU资源。

  1. 执行以下脚本会在您的实例上安装DockerNVIDIA容器工具包,当输出日志安装完成表示成功安装。

    说明

    由于需要下载网络资源,安装脚本需要3-10分钟左右,请您耐心等待。

    # 脚本支持Alibaba Cloud Linux、CentOS、Ubuntu、Debian
    curl -fsSL https://help-static-aliyun-doc.aliyuncs.com/qwen3/install-script/install-docker.sh | bash
  2. 初始化数据盘,并将数据盘挂载到/mnt目录。

    1. 执行lsblk命令,查看数据盘的信息。image

    2. 执行以下命令,创建并挂载文件系统至/mnt目录下。

      sudo mkfs.ext4 /dev/vdb
      sudo mount /dev/vdb /mnt
    3. 执行lsblk命令,查看数据盘已挂载至/mnt目录下。

      image

步骤三:下载模型

  1. 安装并配置ossutil,具体操作请参见安装ossutil配置ossutil

  2. 执行以下脚本通过ossutil下载模型文件(存储在/mnt/Qwen3-235B-A22B目录下),当输出日志Qwen3-235B-A22B downloads successfully!表示模型下载成功。

    说明
    • 由于模型较大,下载时间为15-20分钟左右,请您耐心等待。

    • 模型下载是通过ossutil并使用cp命令在内网环境执行下载,以起到下载加速的目的,如果您的ECS在非杭州地域,执行下载脚本会出现网络连接错误,您也可以通过ModelScope的模型库下载Qwen3-235B-A22B

    curl -fsSL https://help-static-aliyun-doc.aliyuncs.com/qwen3/install-script/235b-a22b-0522/download.sh | bash

步骤四:部署模型

说明
  • 第一次启动容器时需要下载推理服务镜像,耗时约1015分钟,请您耐心等待。

  • 集群环境可以提升模型推理的速度与效率,增强系统的稳定性和可靠性。如果需要在集群环境中部署模型,可以使用Ray框架来实现分布式推理,具体操作请参见如何通过ray进行分布式部署

vllm

# 定义模型名称。
MODEL_NAME="Qwen3-235B-A22B"

# 定义服务运行时监听的端口号。可以根据实际需求进行调整,默认使用30000端口
PORT="30000"

# 定义使用的GPU数量。这取决于实例上可用的GPU数量,可以通过nvidia-smi -L命令查询
TENSOR_PARALLEL_SIZE="8"

# 设置本地存储路径
LOCAL_SAVE_PATH="/mnt/Qwen3-235B-A22B"

sudo docker run -t -d --name="qwen-test"  --ipc=host \
--cap-add=SYS_PTRACE --network=host --gpus all \
--privileged --ulimit memlock=-1 --ulimit stack=67108864 \
-v ${LOCAL_SAVE_PATH}:${LOCAL_SAVE_PATH} \
egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/vllm:0.8.5-pytorch2.6-cu124-20250429 \
/bin/bash -c "vllm serve ${LOCAL_SAVE_PATH} \
--max-model-len=16384 \
--tensor-parallel-size ${TENSOR_PARALLEL_SIZE} --trust-remote-code \
--host 0.0.0.0 --port ${PORT} --gpu-memory-utilization 0.9"

如下所示,表示推理服务已启动。image.png

sglang

# 定义模型名称。
MODEL_NAME="Qwen3-235B-A22B"

# 定义服务运行时监听的端口号。可以根据实际需求进行调整,默认使用30000端口
PORT="30000"

# 定义使用的GPU数量。这取决于实例上可用的GPU数量,可以通过nvidia-smi -L命令查询
TENSOR_PARALLEL_SIZE="8"

# 设置本地存储路径
LOCAL_SAVE_PATH="/mnt/Qwen3-235B-A22B"

sudo docker run -t -d --name="qwen-test"  --ipc=host \
--cap-add=SYS_PTRACE --network=host --gpus all \
--privileged --ulimit memlock=-1 --ulimit stack=67108864 \
-v ${LOCAL_SAVE_PATH}:${LOCAL_SAVE_PATH} \
egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/sglang:0.4.6.post1-pytorch2.6-cu124-20250429 \
/bin/bash -c "python3 -m sglang.launch_server \
--model-path ${LOCAL_SAVE_PATH} \
--port ${PORT} --tp ${TENSOR_PARALLEL_SIZE} \
--host 0.0.0.0 \
--reasoning-parser qwen3 --enable-torch-compile"

如下所示,表示推理服务已启动。image

步骤四:推理测试验证

  1. 访问Chatbox官网下载并安装客户端。

  2. 单击设置在设置页面,模型提供方下拉列表,选择添加自定义提供方image

  3. 设置模型信息。

    配置项

    说明

    API域名

    填写模型提供服务的地址http://ECS公网IP:30000/v1

    API路径

    OpenAI API兼容下填写固定路径/chat/completions

    模型

    填写提供服务的模型(例:/mnt/Qwen3-235B-A22B)。

  4. 单击新对话,与模型进行对话测试。image

资源释放

在本文中,您创建了多个云资源。测试完方案后,您可以参考以下规则处理对应产品的实例,避免继续产生费用。

  1. 释放云服务器ECS实例:

    登录ECS控制台,在实例页面,找到目标实例,然后在操作列选择216更多-竖向..png>释放,根据界面提示释放实例。

  2. 删除安全组:

    登录ECS 控制台,在安全组页面,找到目标安全组,然后在操作列单击删除,按照界面提示删除安全组。

  3. 删除交换机:

    登录专有网络控制台,在交换机页面,找到目标交换机,然后在操作列单击删除,按照界面提示删除交换机。

  4. 释放专有网络VPC:

    登录专有网络控制台,在专有网络页面,找到目标VPC,然后在操作列单击删除,按照界面提示释放专有网络VPC。