使用计算巢一键部署Qwen3系列模型-计算巢服务-阿里云

阿里云计算巢提供了Qwen3系列模型的一键部署方案，最快5分钟即可私有部署Qwen3系列模型，如Qwen3-235B、Qwen3-32B模型等。您无需关心模型部署运行的标准环境与底层云资源编排，仅需填写几个参数即可享受企业专属模型的推理体验。本文为您介绍如何通过计算巢一键部署Qwen3系列模型。

什么是Qwen3

Qwen3是通义千问系列最新推出的超大规模语言模型，基于万亿参数级架构构建，深度融合多模态数据与强化学习技术。其具备卓越的自然语言理解与生成能力，支持中英双语及多种编程语言交互，可高效完成文本创作、逻辑推理、代码生成等复杂任务。

计费说明

计算巢平台不收取平台使用费，只收取服务部署时使用的阿里云云资源的费用。本示例部署费用包含：

所选GPU云服务器的实例规格
块存储
公网带宽

您可以根据实际需求选择按量付费或者包年包月计费。详细计费规则及价格，请参见计费项、计费方式。

RAM账号所需权限

部署服务实例时需要对部分阿里云资源进行访问和创建操作。因此您的账号需要包含如下资源的权限。若您使用RAM用户创建服务实例，需要在创建服务实例前为RAM用户添加相应资源权限。

权限策略名称	备注
AliyunECSFullAccess	管理云服务器服务（ECS）的权限
AliyunVPCFullAccess	管理专有网络（VPC）的权限
AliyunROSFullAccess	管理资源编排服务（ROS）的权限
AliyunComputeNestUserFullAccess	管理计算巢服务（ComputeNest）的用户侧权限

操作步骤

单击LLM推理服务-ECS版进入实例创建页面。

在创建服务实例界面，配置服务实例信息。本节仅展示关键参数，其他参数按需填写。

参数	说明
选择模板	请选择单机版。
模型系列	请选择Qwen。
模型名称	目前支持Qwen3-235B-A22B，Qwen3-32B，Qwen3-8B。本节以Qwen3-32B为例。
实例类型	本节以ecs.gn7i-8x.16xlarge为例。若部署Qwen3-235B-A22B模型，需要ecs.ebmgn8v.48xlarge实例规格，如需使用请提交工单申请。
选择是否开始公网访问	可根据需求选择是否开启公网，如果您需要进行性能测试，请开启公网访问。

单击下一步：确认订单。确认服务实例信息与价格预览，单击立即创建。
说明
由于模型不同，创建所需的时间也不同，请您耐心等待。
测试服务实例。
1. 访问计算巢-服务实例页面，单击您创建的服务实例。
2. 在概览页签的立即使用区域中，复制API调用示例。
3. 在资源页签中，单击ECS实例的远程连接。在弹窗中单击免密登录，登录ECS实例。
4. 粘贴API调用示例，并按Enter键即可。
  默认为流式返回，如下图所示。
  说明
  若不希望流式输出，可将API调用示例中的stream修改为false，若您提问内容较为复杂，非流式输出的时间可能会较长，请您耐心等待。

其他操作

查询模型部署参数

在日志管理页签中，找到资源类型为ALIYUN::ECS::RunCommand，复制并单击关联ID，进入ECS 云助手控制台。
在ECS 云助手控制台的命令执行结果页签中，粘贴关联ID并搜索。
单击操作栏中的查看，在执行信息页签的命令内容中，您可找到模型部署参数。

自定义参数部署模型

如果您有使用自定义模型部署参数的需求，可以在部署服务实例后，按照如下操作步骤进行修改并重新部署。

在资源页签中，单击ECS实例的远程连接。在弹窗中单击免密登录，进入ECS实例。
执行下面的命令，停止模型服务。
警告
停止服务会导致业务中断，建议您在非业务高峰期时执行该操作。
```
sudo docker stop vllm
sudo docker rm vllm
```

获取模型部署命令，根据需求修改并在命令行中执行。

下方分别是vllm与sglang部署的参考脚本，您可参考注释修改实际执行的脚本。

说明

重新部署大约需要10分钟，请您耐心等待。

vllm部署

sudo docker run -d -t --net=host \
 --gpus all \ # 允许容器访问所有可用的GPU设备
 --entrypoint /bin/bash \
 --privileged \
 --ipc=host \
 --name vllm \ # 给容器指定一个易于识别的名字vllm
 -v /root:/root \ 将宿主机的/root目录挂载到容器内的/root，实现数据共享
 egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/vllm:0.7.2-pytorch2.5.1-cuda12.4-ubuntu22.04 \
 -c "pip install --upgrade vllm==0.8.2 && # 可自定义版本，如 pip install vllm==0.7.1
 export GLOO_SOCKET_IFNAME=eth0 && # 采用vpc进行网络通信所需环境变量，勿删改
 export NCCL_SOCKET_IFNAME=eth0 && # 采用vpc进行网络通信所需环境变量，勿删改
 vllm serve /root/llm-model/${ModelName} \  # 使用服务启动模型
 --served-model-name ${ModelName} \  # 指定服务中使用的模型名称
 --gpu-memory-utilization 0.98 \ # Gpu占用率，过高可能导致其他进程触发OOM。取值范围:0~1
 --max-model-len ${MaxModelLen} \ # 模型最大长度，取值范围与模型本身有关。
 --enable-chunked-prefill \
 --host=0.0.0.0 \
 --port 8080 \
 --trust-remote-code \
 --api-key "${VLLM_API_KEY}" \ # 可选，设置API密钥，如不需要可去掉。
 --tensor-parallel-size $(nvidia-smi --query-gpu=index --format=csv,noheader | wc -l | awk '{print $1}')" # 使用GPU数量，默认使用全部GPU。

sglang部署

 #下载包含sglang的公开镜像
 sudo docker pull egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/vllm:0.7.2-sglang0.4.3.post2-pytorch2.5-cuda12.4-20250224

 sudo docker run -d -t --net=host \
 --gpus all \ # 允许容器访问所有可用的GPU设备
 --entrypoint /bin/bash \
 --privileged \
 --ipc=host \
 --name llm-server \
 -v /root:/root \
 egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/vllm:0.7.2-sglang0.4.3.post2-pytorch2.5-cuda12.4-20250224 \ 
 -c "pip install sglang==0.4.3 && # 可自定义版本
 export GLOO_SOCKET_IFNAME=eth0 && # 采用vpc进行网络通信所需环境变量，勿删改
 export NCCL_SOCKET_IFNAME=eth0 && # 采用vpc进行网络通信所需环境变量，勿删改
 python3 -m sglang.launch_server \
 --model-path /root/llm-model/${ModelName} \ # 使用服务启动模型
 --served-model-name ${ModelName} \ # 指定服务中使用的模型名称
 --tp $(nvidia-smi --query-gpu=index --format=csv,noheader | wc -l | awk '{print $1}')" \ # 使用GPU数量，默认使用全部GPU。
 --trust-remote-code \
 --host 0.0.0.0 \
 --port 8080 \
 --mem-fraction-static 0.9 # Gpu占用率，过高可能导致其他进程触发OOM。取值范围:0~1

执行成功，如下如所示。