快速开始:Qwen3系列模型部署、微调、评测

Qwen3是阿里云通义千问团队于2025429日发布的最新大型语言模型系列,包含2MoE模型和6Dense模型。其基于广泛的训练,在推理、指令跟随、Agent 能力和多语言支持方面取得了突破性的进展。PAI-Model Gallery已接入全部8个尺寸模型,以及其对应的Base模型、FP8模型,总计22个模型。本文为您介绍如何在Model Gallery部署评测该系列模型。

模型部署与调用

模型部署

SGLang部署Qwen3-235B-A22B模型为例。

  1. 进入Model Gallery页面。

    1. 登录PAI控制台,在顶部左上角根据实际情况选择地域(可以切换地域来获取合适的计算资源库存)。

    2. 在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间。

    3. 在左侧导航栏选择快速开始 > Model Gallery

  2. Model Gallery页面右侧的模型列表中,单击Qwen3-235B-A22B模型卡片,进入模型详情页面。

  3. 单击右上角部署,选择部署方式以及部署使用的资源信息,即可将模型部署到EAS推理服务平台。

    部署资源:模型所需最低配置参见部署所需算力&支持Token

    • EAS资源组:请前往EAS专属机器预付费购买EAS专属资源。

    • 公共资源:默认使用,并给出了推荐规格。资源规格选择列表中系统已自动过滤出模型可用的公共资源规格,如全部灰显无法选择,说明资源库存不足,您可以考虑切换地域。

      重要

      灵骏竞价资源(ml.gu7ef.8xlarge-gu100、ml.gu7xf.8xlarge-gu108、ml.gu8xf.8xlarge-gu108、ml.gu8tf.8.40xlarge)仅支持在乌兰察布region使用,无需开白。竞价资源可能被抢占,注意出价。

    image

在线调试

服务详情页最底端单击EAS在线调试,示例如下。

image

API调用

  1. 获取服务的访问地址和Token。

    1. Model Gallery > 任务管理 > 部署任务中单击已部署的服务名称,进入服务详情页。

    2. 单击查看调用信息获取调用的访问地址和Token。

      image

  2. 对话接口/v1/chat/completions调用示例(SGLang部署)。

    curl -X POST \
        -H "Content-Type: application/json" \
        -H "Authorization: <EAS_TOKEN>" \
        -d '{
            "model": "<模型名,通过'/v1/models' API获取>",
            "messages": [
            {
                "role": "system",
                "content": "You are a helpful assistant."
            },
            {
                "role": "user",
                "content": "hello!"
            }
            ]
        }' \
        <EAS_ENDPOINT>/v1/chat/completions
    from openai import OpenAI
    
    ##### API 配置 #####
    # <EAS_ENDPOINT>需替换为部署服务的访问地址,<EAS_TOKEN>需替换为部署服务的Token。
    openai_api_key = "<EAS_TOKEN>"
    openai_api_base = "<EAS_ENDPOINT>/v1"
    
    client = OpenAI(
        api_key=openai_api_key,
        base_url=openai_api_base,
    )
    
    models = client.models.list()
    model = models.data[0].id
    print(model)
    
    stream = True
    chat_completion = client.chat.completions.create(
        messages=[
            {"role": "user", "content": "你好,请介绍一下你自己。"}
        ],
        model=model,
        max_completion_tokens=2048,
        stream=stream,
    )
    
    if stream:
        for chunk in chat_completion:
            print(chunk.choices[0].delta.content, end="")
    else:
        result = chat_completion.choices[0].message.content
        print(result)

    其中:<EAS_ENDPOINT>需替换为部署服务的访问地址,<EAS_TOKEN>需替换为部署服务的Token。

部署方式不同,对应的调用方法也不同。更多调用请参见LLM大语言模型部署-API调用

模型微调

  • Qwen3-32B/14B/8B/4B/1.7B/0.6B 模型已支持SFT(全参/LoRA/QLoRA微调)和GRPO训练。

  • 支持一键提交训练任务,训练企业业务场景专属模型。

image

image

模型评测

关于模型评测详细的操作说明,请参见模型评测大模型评测最佳实践

附录:部署所需算力&支持Token

下表提供了Qwen3部署所需的最低配置,以及使用不同机型部署时在不同推理框架上支持的最大 Token 数。

说明

FP8模型里只有Qwen3-235B-A22B模型的算力需求比原模型减少,其他所需算力与非FP8无区别,故未列在表中。比如Qwen3-30B-A3B-FP8所需算力,请参考Qwen3-30B-A3B。

模型

支持的最大 Token 数(输入+输出)

最低配置

SGLang 加速部署

vLLM 加速部署

Qwen3-235B-A22B

32768(加 RoPE 缩放:131072)

32768(加 RoPE 缩放:131072)

8 卡 GPU H / GU120

(8 * 96 GB 显存)

Qwen3-235B-A22B-FP8

32768(加 RoPE 缩放:131072)

32768(加 RoPE 缩放:131072)

4 卡 GPU H / GU120

(4 * 96 GB 显存)

Qwen3-30B-A3B

Qwen3-30B-A3B-Base

Qwen3-32B

32768(加 RoPE 缩放:131072)

32768(加 RoPE 缩放:131072)

1 卡 GPU H / GU120

(96 GB 显存)

Qwen3-14B

Qwen3-14B-Base

32768(加 RoPE 缩放:131072)

32768(加 RoPE 缩放:131072)

1 卡 GPU L / GU60

(48 GB 显存)

Qwen3-8B

Qwen3-4B

Qwen3-1.7B

Qwen3-0.6B

Qwen3-8B-Base

Qwen3-4B-Base

Qwen3-1.7B-Base

Qwen3-0.6B-Base

32768(加 RoPE 缩放:131072)

32768(加 RoPE 缩放:131072)

1 卡 A10 / GU30

(24 GB 显存)

重要

8B模型加RoPE缩放时,需要 48GB显存

常见问题

1. 如何修改 Token 上限

Qwen3模型原生支持 token 长度为 32768,可以通过 RoPE 缩放技术支持最大 131072 长度的 token(但可能损失部分性能)。如下修改服务配置JSON里字段container中的script

  • vLLM:

    vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072
  • SGLang:

    python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}}'

2. function call 支持

vLLM/SGlang 支持将模型生成的工具调用内容解析为结构化消息,如下修改服务配置JSONscript

  • vLLM:

    vllm serve ... --enable-auto-tool-choice --tool-call-parser hermes
  • SGLang:

    python -m sglang.launch_server ... --tool-call-parser qwen25

3. 切换think模式

Qwen3支持切换是否开启 think 模式。Model Gallery 部署时,可通过如下方式打开/关闭 think:

curl -X POST \
    -H "Content-Type: application/json" \
    -H "Authorization: <EAS_TOKEN>" \
    -d '{
        "model": "<MODEL_NAME>",
        "messages": [
            {
                "role": "user",
                "content": "Give me a short introduction to large language models."
            }
        ],
        "temperature": 0.7,
        "top_p": 0.8,
        "max_tokens": 8192,
        "presence_penalty": 1.5,
        "chat_template_kwargs": {"enable_thinking": true}
    }' \
    <EAS_ENDPOINT>/v1/chat/completions
from openai import OpenAI
# # <EAS_ENDPOINT>需替换为部署服务的访问地址,<EAS_TOKEN>需替换为部署服务的Token。
openai_api_key = "<<EAS_TOKEN>"
openai_api_base = "<EAS_ENDPOINT>/v1"

client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

chat_response = client.chat.completions.create(
    model="<MODEL_NAME>",
    messages=[
        {"role": "user", "content": "Give me a short introduction to large language models."},
    ],
    temperature=0.7,
    top_p=0.8,
    presence_penalty=1.5,
    extra_body={"chat_template_kwargs": {"enable_thinking": True}},
)
print("Chat response:", chat_response)

其中:<EAS_ENDPOINT>需替换为部署服务的访问地址,<EAS_TOKEN>需替换为部署服务的Token。<MODEL_NAME>需替换为实际的模型名,通过/v1/models API获取。

需要将 think 部分区分输出时,可以如下修改服务配置JSONscript

  • vLLM:

    vllm serve ... --enable-reasoning --reasoning-parser qwen3

    还需要将镜像替换为:eas-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai-eas/pai-quickstart:vllm-v0.8.5-netcat (注意region ID:cn-wulanchabu,其他地域需要换成对应region ID)

  • SGLang:

    python -m sglang.launch_server ... --reasoning-parser deepseek-r1

4. Qwen3无法关闭思考模式

通过3. 切换think模式中调用参数增加"chat template kwargs"无法关闭思考模式时,请检查部署方式是否为BladeLLM。BladeLLM目前没支持传递chat template kwargs。您可以考虑以下方式解决:

  1. 使用软开关/no_think(模型遵循用户关于是否应该思考的指令)。请求体示例如下:

    {
      "model": "",
      "messages": [
        {
          "role": "user",
          "content": "/no_think Hello!"
        }
      ],
      "max_tokens": 1024
    }
  2. Model Gallery的模型介绍页,查看是否提供了BLadeLLM关闭思考模式的方式。如Qwen3-8B,可以如下修改服务配置JSONscript关闭思考模式:

    blade_llm_server ... --chat_template /model_dir/no_thinking.jinja
  3. 使用其他加速部署框架,如vLLM、SGLang。

  4. 自行编写聊天模板如no_thinking.jinja,通过OSS挂载读取,并修改服务配置JSONscript

    image

5. 部署后的模型服务如何对接 Chatbox、Dify

参见如何接入ChatboxDify

6. 如何修改script

在部署抽屉的【服务配置】,编辑JSON:

image

6. PAI部署的模型服务是否支持session/会话功能(多次请求之间能保持上下文信息)?

不支持。PAI部署的模型服务API是无状态的,每个调用完全独立,服务器不会在多个请求之间保留任何上下文或会话状态。

如果要实现多轮对话,需要客户端保存历史对话,再添加到模型调用的请求中,请求示例见如何实现多轮对话?