在PAI-PPU中一键拉起Qwen3推理服务
1. 前言
Qwen3 是 Qwen 系列最新一代的大语言模型,提供了一系列密集(Dense)和混合专家(MOE)模型。基于广泛的训练,Qwen3 在推理、指令跟随、Agent 能力和多语言支持方面取得了突破性的进展。
PAI-PPU第一时间完成了对Qwen3系列模型的适配,并在Model Gallery中上线了一键推理部署模板,本文介绍零基础使用方法。
2. 准备工作
首先,进入PAI-PPU支持的地域,当前支持的地域包含:乌兰察布、北京、上海、杭州。
其次,开通PAI并购买PPU资源,并在PAI中购买规格为ml.gp7vf.16.40xlarge的灵骏智算资源。
PAI上的ml.gp7vf.16.40xlarge规格购买配额需要额外开通,请联系您的商务经理或PAI PDSA。
3. 模型部署
进入PAI-Model Gallery,找到Qwen3系列模型的模型卡片。

单击模型详情页右上角的部署按钮,打开部署配置窗口。

在部署方式中,部署模板选择单机-GP7V机型。

在资源信息中,资源类型选择资源配额,再选择包含真武810E资源的资源配额,并按需填写实例数、部署资源。

单击部署即可完成部署操作,等待服务部署完成。

4. PAI-PPU支持的部署方式与建议资源配置
模型类型 | 模型版本 | 建议资源配置 | vLLM部署 | SGLang部署 |
MoE推理模型 | Qwen3-235B-A22B | 8卡 | ✅ | |
MoE推理模型 | Qwen3-30B-A3B | 1卡 | ✅ | ✅ |
Dense推理模型 | Qwen3-32B | 1卡 | ✅ | ✅ |
Dense推理模型 | Qwen3-14B | 1卡 | ✅ | ✅ |
Dense推理模型 | Qwen3-8B | 1卡 | ✅ | ✅ |
Dense推理模型 | Qwen3-1.7B | 1卡 | ✅ | ✅ |
Dense推理模型 | Qwen3-0.6B | 1卡 | ✅ | ✅ |
MoE基础模型 | Qwen3-30B-A3B-Base | 1卡 | ✅ | ✅ |
Dense基础模型 | Qwen3-14B-Base | 1卡 | ✅ | ✅ |
Dense推理模型 | Qwen3-8B-Base | 1卡 | ✅ | ✅ |
Dense推理模型 | Qwen3-4B-Base | 1卡 | ✅ | ✅ |
Dense推理模型 | Qwen3-1.7B-Base | 1卡 | ✅ | ✅ |
Dense推理模型 | Qwen3-0.6B-Base | 1卡 | ✅ | ✅ |
5. 服务调用
单击服务详情中的查看调用信息,可以查看服务的访问地址和Token。
5.1 通过Python脚本调用
使用简单的OpenAI SDK,通过Python脚本即可调用PAI-PPU上的Qwen3服务:
from openai import OpenAI
base_url="<访问地址>/v1"
api_key="<Token>"
client = OpenAI(
api_key=api_key,
base_url=base_url,
)
models = client.models.list()
model = models.data[0].id
print(model)
response = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": "你是一个会推理的智能助手,你总是使用中文,对于用户的问题,总是先思考,再给出最终答案。"
},
{
"role": "user",
"content": "In what bases, b, does(b+7) divide into (9b+7) without any reminders?"
}
],
stream=True,
temperature=0.6,
top_p=0.8,
presence_penalty=1.5,
extra_body={"chat_template_kwargs": {"enable_thinking": True}}
)
done_reasoning = False
for chunk in response:
reasoning_chunk = ''
# reasoning_chunk = chunk.choices[0].delta.reasoning_content
answer_chunk = chunk.choices[0].delta.content
if reasoning_chunk != '':
print(reasoning_chunk, end='',flush=True)
elif answer_chunk != '':
if not done_reasoning:
print('\n\n === Final Answer ===\n')
done_reasoning = True
print(answer_chunk, end='',flush=True)保存上述脚本,在命令行中执行“python 脚本名称.py”即可执行。

5.2 通过客户端工具调用
在Cherry Studio等客户端工具中,直接填入“访问地址”与“Token”,也可以快速调用PAI-PPU上的Qwen3服务。

对于Qwen3系列中的推理模型,在客户端工具中将其设置为“推理”类型,可以有更好的交互体验。

