部署调用微调与高级配置Qwen3-人工智能平台 PAI-阿里云

Qwen3是阿里云通义千问团队于2025年4月29日发布的最新大型语言模型系列，包含2个MoE模型和6个Dense模型。其基于广泛的训练，在推理、指令跟随、Agent 能力和多语言支持方面取得了突破性的进展。PAI-Model Gallery已接入全部8个尺寸模型，以及其对应的Base模型、FP8模型，总计22个模型。本文为您介绍如何在Model Gallery部署评测该系列模型。

模型部署与调用

模型部署

以SGLang部署Qwen3-235B-A22B模型为例。

进入Model Gallery页面。
1. 登录PAI控制台，在顶部左上角根据实际情况选择地域（可以切换地域来获取合适的计算资源库存）。
2. 在左侧导航栏选择工作空间列表，单击指定工作空间名称，进入对应工作空间。
3. 在左侧导航栏选择快速开始 > Model Gallery。
在Model Gallery页面右侧的模型列表中，单击Qwen3-235B-A22B模型卡片，进入模型详情页面。
单击右上角部署，选择部署方式以及部署使用的资源信息，即可将模型部署到EAS推理服务平台。
部署资源：模型所需最低配置参见部署所需算力&支持Token数。
- EAS资源组：请前往EAS专属机器预付费购买EAS专属资源。
- 公共资源：默认使用，并给出了推荐规格。资源规格选择列表中系统已自动过滤出模型可用的公共资源规格，如全部灰显无法选择，说明资源库存不足，您可以考虑切换地域。
  重要
  灵骏竞价资源（ml.gu7ef.8xlarge-gu100、ml.gu7xf.8xlarge-gu108、ml.gu8xf.8xlarge-gu108、ml.gu8tf.8.40xlarge）仅支持在乌兰察布region使用，无需开白。竞价资源可能被抢占，注意出价。

在线调试

在服务详情页最底端单击EAS在线调试，示例如下。

API调用

获取服务的访问地址和Token。
1. 在Model Gallery > 任务管理 > 部署任务中单击已部署的服务名称，进入服务详情页。
2. 单击查看调用信息获取调用的访问地址和Token。

对话接口/v1/chat/completions调用示例（SGLang部署）。

curl

curl -X POST \
    -H "Content-Type: application/json" \
    -H "Authorization: <EAS_TOKEN>" \
    -d '{
        "model": "<模型名，通过'/v1/models' API获取>",
        "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": "hello!"
        }
        ]
    }' \
    <EAS_ENDPOINT>/v1/chat/completions

Python

from openai import OpenAI

##### API 配置 #####
# <EAS_ENDPOINT>需替换为部署服务的访问地址，<EAS_TOKEN>需替换为部署服务的Token。
openai_api_key = "<EAS_TOKEN>"
openai_api_base = "<EAS_ENDPOINT>/v1"

client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

models = client.models.list()
model = models.data[0].id
print(model)

stream = True
chat_completion = client.chat.completions.create(
    messages=[
        {"role": "user", "content": "你好，请介绍一下你自己。"}
    ],
    model=model,
    max_completion_tokens=2048,
    stream=stream,
)

if stream:
    for chunk in chat_completion:
        print(chunk.choices[0].delta.content, end="")
else:
    result = chat_completion.choices[0].message.content
    print(result)

其中：<EAS_ENDPOINT>需替换为部署服务的访问地址，<EAS_TOKEN>需替换为部署服务的Token。

部署方式不同，对应的调用方法也不同。更多调用请参见LLM大语言模型部署-API调用。

集成第三方应用

接入Chatbox、Dify或Cherry Studio，请参见集成第三方客户端。

高级配置

通过修改服务的 JSON 配置，可以实现调整 Token 上限、启用工具调用 (Function Calling) 等高级功能。

操作路径：在部署页面的服务配置区域，编辑JSON。如果是已部署的服务，通过更新服务进入部署页面。

修改 Token 上限

Qwen3模型原生支持 token 长度为 32768，可通过 RoPE 缩放技术支持最大 131072 长度的 token（但可能损失部分性能）。如下修改服务配置JSON文件中的containers.script字段：

vLLM：

vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072

SGLang：

python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}}'

解析工具调用

vLLM/SGlang 支持将模型生成的工具调用内容解析为结构化消息，如下修改服务配置JSON文件中的containers.script字段：

vLLM：

vllm serve ... --enable-auto-tool-choice --tool-call-parser hermes

SGLang：

python -m sglang.launch_server ... --tool-call-parser qwen25

控制思考模式

Qwen3 默认使用思考模式，可以通过硬开关（完全禁用思考）或软开关（模型遵循用户关于是否应该思考的指令）来控制。

使用软开关/no_think

请求体示例如下：

{
  "model": "<MODEL_NAME>",
  "messages": [
    {
      "role": "user",
      "content": "/no_think Hello!"
    }
  ],
  "max_tokens": 1024
}

使用硬开关

通过 API 参数控制（适用于vLLM和SGLang）：在API调用中增加参数chat_template_kwargs，示例如下：

curl

curl -X POST \
    -H "Content-Type: application/json" \
    -H "Authorization: <EAS_TOKEN>" \
    -d '{
        "model": "<MODEL_NAME>",
        "messages": [
            {
                "role": "user",
                "content": "Give me a short introduction to large language models."
            }
        ],
        "temperature": 0.7,
        "top_p": 0.8,
        "max_tokens": 8192,
        "presence_penalty": 1.5,
        "chat_template_kwargs": {"enable_thinking": false}
    }' \
    <EAS_ENDPOINT>/v1/chat/completions

Python

from openai import OpenAI
# # <EAS_ENDPOINT>需替换为部署服务的访问地址，<EAS_TOKEN>需替换为部署服务的Token。
openai_api_key = "<<EAS_TOKEN>"
openai_api_base = "<EAS_ENDPOINT>/v1"

client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

chat_response = client.chat.completions.create(
    model="<MODEL_NAME>",
    messages=[
        {"role": "user", "content": "Give me a short introduction to large language models."},
    ],
    temperature=0.7,
    top_p=0.8,
    presence_penalty=1.5,
    extra_body={"chat_template_kwargs": {"enable_thinking": False}},
)
print("Chat response:", chat_response)

其中：<EAS_ENDPOINT>需替换为部署服务的访问地址，<EAS_TOKEN>需替换为部署服务的Token。<MODEL_NAME>需替换为实际的模型名，通过/v1/models API获取。

通过修改服务配置关闭（适用于BladeLLM）：启动模型时使用阻止模型生成思考内容的聊天模板。
- 在Model Gallery的模型介绍页，查看是否提供了BLadeLLM关闭思考模式的方式。如Qwen3-8B，可如下修改服务配置JSON文件中的containers.script字段关闭思考模式：
```
blade_llm_server ... --chat_template /model_dir/no_thinking.jinja
```
- 自行编写聊天模板如no_thinking.jinja，通过OSS挂载读取，并修改服务配置JSON文件中的containers.script字段。

解析思考内容

需要将 think 部分区分输出时，可以如下修改服务配置JSON文件中的containers.script字段：

vLLM：

vllm serve ... --enable-reasoning --reasoning-parser qwen3

SGLang：

python -m sglang.launch_server ... --reasoning-parser deepseek-r1

模型微调

Qwen3-32B/14B/8B/4B/1.7B/0.6B 模型已支持SFT（全参/LoRA/QLoRA微调）和GRPO训练。
支持一键提交训练任务，训练企业业务场景专属模型。

模型评测

关于模型评测详细的操作说明，请参见模型评测、大模型评测最佳实践。

附录：部署所需算力&支持Token数

下表提供了Qwen3部署所需的最低配置，以及使用不同机型部署时在不同推理框架上支持的最大 Token 数。

说明

FP8模型里只有Qwen3-235B-A22B模型的算力需求比原模型减少，其他所需算力与非FP8无区别，故未列在表中。比如Qwen3-30B-A3B-FP8所需算力，请参考Qwen3-30B-A3B。

模型	支持的最大 Token 数（输入+输出）		最低配置
模型	SGLang 加速部署	vLLM 加速部署	最低配置
Qwen3-235B-A22B	32768（加 RoPE 缩放：131072）	32768（加 RoPE 缩放：131072）	8 卡 GPU H / GU120 （8 * 96 GB 显存）
Qwen3-235B-A22B-FP8	32768（加 RoPE 缩放：131072）	32768（加 RoPE 缩放：131072）	4 卡 GPU H / GU120 （4 * 96 GB 显存）
Qwen3-30B-A3B Qwen3-30B-A3B-Base Qwen3-32B	32768（加 RoPE 缩放：131072）	32768（加 RoPE 缩放：131072）	1 卡 GPU H / GU120 （96 GB 显存）
Qwen3-14B Qwen3-14B-Base	32768（加 RoPE 缩放：131072）	32768（加 RoPE 缩放：131072）	1 卡 GPU L / GU60 （48 GB 显存）
Qwen3-8B Qwen3-4B Qwen3-1.7B Qwen3-0.6B Qwen3-8B-Base Qwen3-4B-Base Qwen3-1.7B-Base Qwen3-0.6B-Base	32768（加 RoPE 缩放：131072）	32768（加 RoPE 缩放：131072）	1 卡 A10 / GU30 （24 GB 显存）重要 8B模型加RoPE缩放时，需要 48GB显存

常见问题

Q: PAI部署的模型服务是否支持session/会话功能（多次请求之间能保持上下文信息）？

不支持。PAI部署的模型服务API是无状态的，每个调用完全独立，服务器不会在多个请求之间保留任何上下文或会话状态。

如果要实现多轮对话，需要客户端保存历史对话，再添加到模型调用的请求中，请求示例见如何实现多轮对话？