在PAI-PPU中一键拉起Qwen3推理服务

更新时间:
复制为 MD 格式

1. 前言

Qwen3 是 Qwen 系列最新一代的大语言模型,提供了一系列密集(Dense)和混合专家(MOE)模型。基于广泛的训练,Qwen3 在推理、指令跟随、Agent 能力和多语言支持方面取得了突破性的进展。

PAI-PPU第一时间完成了对Qwen3系列模型的适配,并在Model Gallery中上线了一键推理部署模板,本文介绍零基础使用方法。

2. 准备工作

首先,进入PAI-PPU支持的地域,当前支持的地域包含:乌兰察布、北京、上海、杭州。

其次,开通PAI并购买PPU资源,并在PAI中购买规格为ml.gp7vf.16.40xlarge的灵骏智算资源。

重要

PAI上的ml.gp7vf.16.40xlarge规格购买配额需要额外开通,请联系您的商务经理或PAI PDSA。

3. 模型部署

  1. 进入PAI-Model Gallery,找到Qwen3系列模型的模型卡片。

    image

  2. 单击模型详情页右上角的部署按钮,打开部署配置窗口。

    image.png

  3. 部署方式中,部署模板选择单机-GP7V机型部署方式

  4. 资源信息中,资源类型选择资源配额,再选择包含真武810E资源的资源配额,并按需填写实例数、部署资源。

    image.png

  5. 单击部署即可完成部署操作,等待服务部署完成。

    image.png

4. PAI-PPU支持的部署方式与建议资源配置

模型类型

模型版本

建议资源配置

vLLM部署

SGLang部署

MoE推理模型

Qwen3-235B-A22B

8

MoE推理模型

Qwen3-30B-A3B

1

Dense推理模型

Qwen3-32B

1

Dense推理模型

Qwen3-14B

1

Dense推理模型

Qwen3-8B

1

Dense推理模型

Qwen3-1.7B

1

Dense推理模型

Qwen3-0.6B

1

MoE基础模型

Qwen3-30B-A3B-Base

1

Dense基础模型

Qwen3-14B-Base

1

Dense推理模型

Qwen3-8B-Base

1

Dense推理模型

Qwen3-4B-Base

1

Dense推理模型

Qwen3-1.7B-Base

1

Dense推理模型

Qwen3-0.6B-Base

1

5. 服务调用

单击服务详情中的查看调用信息,可以查看服务的访问地址和Token。image

5.1 通过Python脚本调用

使用简单的OpenAI SDK,通过Python脚本即可调用PAI-PPU上的Qwen3服务:

from openai import OpenAI
base_url="<访问地址>/v1"
api_key="<Token>"
client = OpenAI(
    api_key=api_key,
    base_url=base_url,
)
models = client.models.list()
model = models.data[0].id
print(model)

response = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": "你是一个会推理的智能助手,你总是使用中文,对于用户的问题,总是先思考,再给出最终答案。"
        },
        {
            "role": "user",
            "content": "In what bases, b, does(b+7) divide into (9b+7) without any reminders?"
        }
    ],
    stream=True,
    temperature=0.6,
    top_p=0.8,
    presence_penalty=1.5,
    extra_body={"chat_template_kwargs": {"enable_thinking": True}}
)

done_reasoning = False
for chunk in response:
    reasoning_chunk = ''
   # reasoning_chunk = chunk.choices[0].delta.reasoning_content
    answer_chunk = chunk.choices[0].delta.content
    if reasoning_chunk != '':
        print(reasoning_chunk, end='',flush=True)
    elif answer_chunk != '':
        if not done_reasoning:
            print('\n\n === Final Answer ===\n')
            done_reasoning = True
        print(answer_chunk, end='',flush=True)

保存上述脚本,在命令行中执行“python 脚本名称.py”即可执行。

image.png

5.2 通过客户端工具调用

Cherry Studio等客户端工具中,直接填入“访问地址”与“Token”,也可以快速调用PAI-PPU上的Qwen3服务。

image.png

对于Qwen3系列中的推理模型,在客户端工具中将其设置为“推理”类型,可以有更好的交互体验。

image

image.png