Qwen3是阿里云通义千问团队于2025年4月29日发布的最新大型语言模型系列,包含2个MoE模型和6个Dense模型。其基于广泛的训练,在推理、指令跟随、Agent 能力和多语言支持方面取得了突破性的进展。PAI-Model Gallery已接入全部8个尺寸模型,以及其对应的Base模型、FP8模型,总计22个模型。本文为您介绍如何在Model Gallery部署评测该系列模型。
模型部署与调用
模型部署
以SGLang部署Qwen3-235B-A22B模型为例。
进入Model Gallery页面。
登录PAI控制台,在顶部左上角根据实际情况选择地域(可以切换地域来获取合适的计算资源库存)。
在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间。
在左侧导航栏选择快速开始 > Model Gallery。
在Model Gallery页面右侧的模型列表中,单击Qwen3-235B-A22B模型卡片,进入模型详情页面。
单击右上角部署,选择部署方式以及部署使用的资源信息,即可将模型部署到EAS推理服务平台。
部署资源:模型所需最低配置参见部署所需算力&支持Token数。
EAS资源组:请前往EAS专属机器预付费购买EAS专属资源。
公共资源:默认使用,并给出了推荐规格。资源规格选择列表中系统已自动过滤出模型可用的公共资源规格,如全部灰显无法选择,说明资源库存不足,您可以考虑切换地域。
重要灵骏竞价资源(ml.gu7ef.8xlarge-gu100、ml.gu7xf.8xlarge-gu108、ml.gu8xf.8xlarge-gu108、ml.gu8tf.8.40xlarge)仅支持在乌兰察布region使用,无需开白。竞价资源可能被抢占,注意出价。
在线调试
在服务详情页最底端单击EAS在线调试,示例如下。
API调用
获取服务的访问地址和Token。
在Model Gallery > 任务管理 > 部署任务中单击已部署的服务名称,进入服务详情页。
单击查看调用信息获取调用的访问地址和Token。
对话接口
/v1/chat/completions
调用示例(SGLang部署)。curl -X POST \ -H "Content-Type: application/json" \ -H "Authorization: <EAS_TOKEN>" \ -d '{ "model": "<模型名,通过'/v1/models' API获取>", "messages": [ { "role": "system", "content": "You are a helpful assistant." }, { "role": "user", "content": "hello!" } ] }' \ <EAS_ENDPOINT>/v1/chat/completions
from openai import OpenAI ##### API 配置 ##### # <EAS_ENDPOINT>需替换为部署服务的访问地址,<EAS_TOKEN>需替换为部署服务的Token。 openai_api_key = "<EAS_TOKEN>" openai_api_base = "<EAS_ENDPOINT>/v1" client = OpenAI( api_key=openai_api_key, base_url=openai_api_base, ) models = client.models.list() model = models.data[0].id print(model) stream = True chat_completion = client.chat.completions.create( messages=[ {"role": "user", "content": "你好,请介绍一下你自己。"} ], model=model, max_completion_tokens=2048, stream=stream, ) if stream: for chunk in chat_completion: print(chunk.choices[0].delta.content, end="") else: result = chat_completion.choices[0].message.content print(result)
其中:<EAS_ENDPOINT>需替换为部署服务的访问地址,<EAS_TOKEN>需替换为部署服务的Token。
部署方式不同,对应的调用方法也不同。更多调用请参见LLM大语言模型部署-API调用。
模型微调
Qwen3-32B/14B/8B/4B/1.7B/0.6B 模型已支持SFT(全参/LoRA/QLoRA微调)和GRPO训练。
支持一键提交训练任务,训练企业业务场景专属模型。
模型评测
附录:部署所需算力&支持Token数
下表提供了Qwen3部署所需的最低配置,以及使用不同机型部署时在不同推理框架上支持的最大 Token 数。
FP8模型里只有Qwen3-235B-A22B模型的算力需求比原模型减少,其他所需算力与非FP8无区别,故未列在表中。比如Qwen3-30B-A3B-FP8所需算力,请参考Qwen3-30B-A3B。
模型 | 支持的最大 Token 数(输入+输出) | 最低配置 | |
SGLang 加速部署 | vLLM 加速部署 | ||
Qwen3-235B-A22B | 32768(加 RoPE 缩放:131072) | 32768(加 RoPE 缩放:131072) | 8 卡 GPU H / GU120 (8 * 96 GB 显存) |
Qwen3-235B-A22B-FP8 | 32768(加 RoPE 缩放:131072) | 32768(加 RoPE 缩放:131072) | 4 卡 GPU H / GU120 (4 * 96 GB 显存) |
Qwen3-30B-A3B Qwen3-30B-A3B-Base Qwen3-32B | 32768(加 RoPE 缩放:131072) | 32768(加 RoPE 缩放:131072) | 1 卡 GPU H / GU120 (96 GB 显存) |
Qwen3-14B Qwen3-14B-Base | 32768(加 RoPE 缩放:131072) | 32768(加 RoPE 缩放:131072) | 1 卡 GPU L / GU60 (48 GB 显存) |
Qwen3-8B Qwen3-4B Qwen3-1.7B Qwen3-0.6B Qwen3-8B-Base Qwen3-4B-Base Qwen3-1.7B-Base Qwen3-0.6B-Base | 32768(加 RoPE 缩放:131072) | 32768(加 RoPE 缩放:131072) | 1 卡 A10 / GU30 (24 GB 显存) 重要 8B模型加RoPE缩放时,需要 48GB显存 |
常见问题
1. 如何修改 Token 上限
Qwen3模型原生支持 token 长度为 32768,可以通过 RoPE 缩放技术支持最大 131072 长度的 token(但可能损失部分性能)。如下修改服务配置JSON里字段container中的script:
vLLM:
vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072
SGLang:
python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}}'
2. function call 支持
vLLM/SGlang 支持将模型生成的工具调用内容解析为结构化消息,如下修改服务配置JSON中script:
vLLM:
vllm serve ... --enable-auto-tool-choice --tool-call-parser hermes
SGLang:
python -m sglang.launch_server ... --tool-call-parser qwen25
3. 切换think模式
Qwen3支持切换是否开启 think 模式。Model Gallery 部署时,可通过如下方式打开/关闭 think:
curl -X POST \
-H "Content-Type: application/json" \
-H "Authorization: <EAS_TOKEN>" \
-d '{
"model": "<MODEL_NAME>",
"messages": [
{
"role": "user",
"content": "Give me a short introduction to large language models."
}
],
"temperature": 0.7,
"top_p": 0.8,
"max_tokens": 8192,
"presence_penalty": 1.5,
"chat_template_kwargs": {"enable_thinking": true}
}' \
<EAS_ENDPOINT>/v1/chat/completions
from openai import OpenAI
# # <EAS_ENDPOINT>需替换为部署服务的访问地址,<EAS_TOKEN>需替换为部署服务的Token。
openai_api_key = "<<EAS_TOKEN>"
openai_api_base = "<EAS_ENDPOINT>/v1"
client = OpenAI(
api_key=openai_api_key,
base_url=openai_api_base,
)
chat_response = client.chat.completions.create(
model="<MODEL_NAME>",
messages=[
{"role": "user", "content": "Give me a short introduction to large language models."},
],
temperature=0.7,
top_p=0.8,
presence_penalty=1.5,
extra_body={"chat_template_kwargs": {"enable_thinking": True}},
)
print("Chat response:", chat_response)
其中:<EAS_ENDPOINT>需替换为部署服务的访问地址,<EAS_TOKEN>需替换为部署服务的Token。<MODEL_NAME>需替换为实际的模型名,通过/v1/models
API获取。
需要将 think 部分区分输出时,可以如下修改服务配置JSON中script:
vLLM:
vllm serve ... --enable-reasoning --reasoning-parser qwen3
还需要将镜像替换为:eas-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai-eas/pai-quickstart:vllm-v0.8.5-netcat (注意region ID:cn-wulanchabu,其他地域需要换成对应region ID)
SGLang:
python -m sglang.launch_server ... --reasoning-parser deepseek-r1
4. Qwen3无法关闭思考模式
通过3. 切换think模式中调用参数增加"chat template kwargs"无法关闭思考模式时,请检查部署方式是否为BladeLLM。BladeLLM目前没支持传递chat template kwargs。您可以考虑以下方式解决:
使用软开关/no_think(模型遵循用户关于是否应该思考的指令)。请求体示例如下:
{ "model": "", "messages": [ { "role": "user", "content": "/no_think Hello!" } ], "max_tokens": 1024 }
在Model Gallery的模型介绍页,查看是否提供了BLadeLLM关闭思考模式的方式。如Qwen3-8B,可以如下修改服务配置JSON中script关闭思考模式:
blade_llm_server ... --chat_template /model_dir/no_thinking.jinja
使用其他加速部署框架,如vLLM、SGLang。
自行编写聊天模板如
no_thinking.jinja
,通过OSS挂载读取,并修改服务配置JSON中script。
5. 部署后的模型服务如何对接 Chatbox、Dify
6. 如何修改script
在部署抽屉的【服务配置】,编辑JSON:
6. PAI部署的模型服务是否支持session/会话功能(多次请求之间能保持上下文信息)?
不支持。PAI部署的模型服务API是无状态的,每个调用完全独立,服务器不会在多个请求之间保留任何上下文或会话状态。
如果要实现多轮对话,需要客户端保存历史对话,再添加到模型调用的请求中,请求示例见如何实现多轮对话?