本文档以通义千问模型的部署为例进行说明,使用 API(HTTP)调用方式帮助您使用阿里云百炼提供的模型部署功能。
前提条件
您已经阅读了模型部署简介和使用 API 进行模型部署的相关内容,掌握了模型部署 API 的使用方法,并熟悉了在阿里云百炼平台上进行模型部署的基本步骤。
已配置百炼的 API-KEY, 请参考获取API Key。
获取可以部署的模型列表
地址
GET https://dashscope.aliyuncs.com/api/v1/deployments/models请求示例
通过下面的命令可以查询支持部署的模型,推荐使用version=v1.0获取包含部署方案和模板信息的完整响应。
curl "https://dashscope.aliyuncs.com/api/v1/deployments/models?page_no=1&page_size=100&version=v1.0&model_source=base" \
--header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
--header 'Content-Type: application/json'查询用户微调模型:
curl "https://dashscope.aliyuncs.com/api/v1/deployments/models?page_no=1&page_size=100&version=v1.0&model_source=custom" \
--header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
--header 'Content-Type: application/json'请求参数
参数 | 类型 | 传参方式 | 必选 | 说明 |
page_no | Number | query | 否 | 页码,默认值为1。 |
page_size | Number | query | 否 | 页大小,默认为50,最大值为100,最小值为1。 |
model_source | String | query | 否 | 模型来源。 |
version | String | query | 否 | API 版本,推荐使用 |
响应示例
命令执行完成后,获得以下结果:
{
"request_id": "f7da015c-ea90-4d96-af89-2f8d7604026a",
"output": {
"page_no": 1,
"page_size": 100,
"total": 5,
"models": [
{
"model_name": "qwen3-8b",
"plans": [
{
"plan": "mu",
"templates": [
{
"template_id": "MU1",
"template_name": "单机部署-标准推理型",
"template_type": "COUPLED",
"template_version": "v1",
"template_desc": "适用于标准推理场景",
"roles": {
"unified": {
"model_unit_spec": "MU1",
"capacity_unit_per_instance": 4
}
}
},
{
"template_id": "MU1-PD",
"template_name": "PD分离部署-标准推理型",
"template_type": "SEPERATED",
"template_version": "v1",
"template_desc": "适用于PD分离推理场景",
"roles": {
"prefill": {
"model_unit_spec": "MU1",
"capacity_unit_per_instance": 4
},
"decode": {
"model_unit_spec": "MU1",
"capacity_unit_per_instance": 4
}
}
}
]
},
{
"plan": "lora"
}
]
}
]
}
}响应参数
参数 | 类型 | 说明 |
models | Array | 可部署模型列表。 |
models[].model_name | String | 模型名称。 |
models[].plans | Array | 该模型支持的部署方案列表。使用 |
models[].plans[].plan | String | 部署方案类型: |
models[].plans[].templates | Array | 部署模板列表( |
page_no | Number | 查询页码。 |
page_size | Number | 查询页大小。 |
total | Long | 满足查询条件的所有模型个数。 |
模板字段说明(templates)
参数 | 类型 | 说明 |
template_id | String | 模板 ID,在创建模型部署任务时作为 |
template_name | String | 模板显示名称。 |
template_type | String | 模板类型: |
template_version | String | 模板版本。 |
template_desc | String | 模板描述。 |
roles | Object | 节点角色配置。COUPLED 模式包含 |
roles 节点字段说明
参数 | 类型 | 说明 |
model_unit_spec | String | 模型单元规格。 |
capacity_unit_per_instance | Number | 单实例容量单元数,即 base_capacity。创建部署时 |
创建模型部署任务
地址
POST https://dashscope.aliyuncs.com/api/v1/deployments请求示例
按预置吞吐(PTU)计费
执行以下部署命令后,即便您还没有调用模型,模型部署服务仍将在部署成功后开始计费。建议您先确认服务计费规则,再执行部署命令。

curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"name": "my_qwen_flash",
"model_name": "qwen-flash-2025-07-28",
"plan": "ptu",
"ptu_capacity": {
"input_tpm": 10000,
"output_tpm": 1000
}
}'按模型单元的使用时长计费
执行以下部署命令后,即便您还没有调用模型,模型部署服务仍将在部署成功后开始计费。建议您先确认服务计费规则,再执行部署命令。
模型单元-后付费方式的算力资源先买到先得。如购买不成功会全额退款。
curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"name": "my_qwen_plus"
"model_name": "qwen-plus-2025-12-01",
"plan": "mu",
"deploy_spec": "MU1",
"enable_thinking": true,
"capacity": 4,
"max_context_length": 10000,
"rpm_limit": 500,
"tpm_limit": 1000
}'模型单元部署模式还支持以下更多设置:
配置内容 | 配置详情 |
配置模型推理模式 | 部分模型在以模型单元方式部署时,可配置推理模式、最长上下文等。
|
最长上下文 | 部分模型的模型单元部署模式支持该设置。最长上下文长度基于模型类型。 |
服务限流 | 部分模型的模型单元部署模式支持该设置,可限制模型调用的 RPM、TPM。 |
如何在 API 设置上述内容,请参考:使用 API 创建模型部署任务。
按模型 Token 使用量计费

curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"model_name": "qwen3-8b-ft-202511132025-0260",
"plan": "lora",
"capacity": 1,
"name": "qwen3-8b-ft"
}'capacity 参数设置无效,但必须填写。如需希望扩缩容,请前往百炼模型部署控制台填写表单申请。
按算力单元的使用时长收费(仅适用于图片生成、视频生成)
执行以下部署命令后,即便您还没有调用模型,模型部署服务仍将在部署成功后开始计费。建议您先确认服务计费规则,再执行部署命令。

curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"model_name": "animate-anyone-detect",
"capacity": 2,
"plan": "cu",
"name": "my_animate"
}'请求参数
参数 | 类型 | 传参方式 | 必选 | 说明 | |||||||||||
model_name | String | body | 是 | 待部署的模型名称,对应我的模型中的模型 ID。 | |||||||||||
plan | String | body | 是 | 部署方案,支持以下计费模式:
调优后的模型支持的部署方式可以在我的模型中快速查询到。 | |||||||||||
name | String | body | 是 | 模型的控制台显示名称 | |||||||||||
deploy_spec | String | body | 否 | 仅 具体支持情况请参考:模型单元部署的功能支持情况。 | 当设置 | ||||||||||
enable_thinking | Boolean | body | 否 | 部分模型支持,可设置为 | |||||||||||
max_context_length | Number | body | 否 | 部分模型支持。样例: | |||||||||||
rpm_limit | Number | body | 否 | 部分模型支持, requests per minute,每分钟请求数。 | |||||||||||
tpm_limit | Number | body | 否 | 部分模型支持, token per minute,每分钟 Token 使用量。 | |||||||||||
ptu_capacity | Object | body | 否 | 仅 具体支持情况请参考:PTU部署的功能支持情况。 如果不填写该参数,将默认按照 | 当设置 样例: | ||||||||||
ptu_capacity.input_tpm | Number | body | 否 | 所有模型支持,input token pre-minute,部署的模型每分钟支持的最大输入 Token 量。 | |||||||||||
ptu_capacity.output_tpm | Number | body | 否 | 所有模型支持,output token pre-minute,部署的模型每分钟支持的最大输出 Token 量。 | |||||||||||
ptu_capacity.thinking_output_tpm | Number | body | 否 | 部分模型支持,thinking output token pre-minute,部署的模型每分钟支持的预置思考最大输出 Token 量。 | |||||||||||
suffix | String | body | 否 | 模型部署后,将生成新的模型名称,suffix 用于指定新模型名称的后缀,最大长度为8个字符且需全局唯一。每个模型在首次部署时,可以不指定后缀。如果需要对同一模型进行多次部署,则必须设置后缀以便于区分。 参考输出参数 deployed_model。 | |||||||||||
支持的模型
响应示例
命令执行完成后,返回如下结果:
{
"request_id": "f2ae64f7-83cc-410c-bc0b-840443f7eb86",
"output": {
"deployed_model": "emo-35b3f106-sample01",
"gmt_create": "2025-06-17T11:00:38.68",
"gmt_modified": "2025-06-17T11:00:38.68",
"status": "PENDING",
"model_name": "emo",
"base_model": "emo",
"base_capacity": 1,
"capacity": 1,
"ready_capacity": 0,
"workspace_id": "llm-v71tlv3d***",
"charge_type": "post_paid",
"creator": "175805416***",
"modifier": "175805416***"
}
}响应参数
参数 | 类型 | 说明 |
request_id | String | 本次请求的ID。 |
output | Object | 本次部署任务的详细信息。 |
deployed_model | String | 新模型的唯一标识。在发起模型调用请求时需要在SDK参数传入。 |
gmt_create | String | 创建部署任务的时间。 |
gmt_modified | String | 修改部署任务的时间。 |
status | String | 部署任务的状态。
|
model_name | String | 部署任务使用的模型名称。 |
base_model | String | 部署任务使用的模型对应的基础模型ID。 |
base_capacity | Number | 基础模型运行所需的最小资源单元数量。 |
capacity | Number | 部署任务使用的资源单元数量。 |
ready_capacity | Number | 已就绪并可立即处理请求的资源单元数量。受限于资源初始化速度或硬件状态。 |
workspace_id | String | 部署任务所属的业务空间ID。 |
charge_type | String | 部署任务的扣费方法。 |
creator | String | 该部署任务创建人UID。 |
modifier | String | 对该部署任务进行最后一次操作的账号UID。 |
plan | String | 部署任务的计费模式。(部分模式不显示该参数) |
仅模型单元部署方式响应 | ||
model_unit_spec | String | 模型单元规格。 |
enable_thinking | Boolean | 是否开启思考模式,部分模型支持。 |
max_context_length | Number | 最大上下文长度限制。 |
rpm_limit | String | Requests per minute,每分钟请求数。 |
tpm_limit | Number | Token per minute,每分钟 Token 使用量。 |
仅预置吞吐量(ptu)部署方式响应 | ||
ptu_capacity | Object | 当设置 样例: |
ptu_capacity.input_tpm | Number | 所有模型支持,input token pre-minute,部署的模型每分钟支持的最大输入 Token 量。 |
ptu_capacity.output_tpm | Number | 所有模型支持,output token pre-minute,部署的模型每分钟支持的最大输出 Token 量。 |
ptu_capacity.thinking_output_tpm | Number | 部分模型支持,thinking output token pre-minute,部署的模型每分钟支持的预置思考最大输出 Token 量。 |
修改部署的模型设置
仅模型单元部署方式的部分模型支持修改设置 rpm 和 tpm。
地址
PUT https://dashscope.aliyuncs.com/api/v1/deployments/{deployed_model}/update请求示例
通过以下命令可以查询指定专属服务的详细信息:
curl -X PUT "https://dashscope.aliyuncs.com/api/v1/deployments/{deployed_model}/update" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"rpm_limit": 1000,
"tpm_limit": 200
}'请求参数
参数 | 类型 | 传参方式 | 必选 | 说明 |
deployed_model | String | path | 是 | 新模型的唯一标识。 |
rpm_limit | Number | body | 至少填写一个参数 | Requests per minute,每分钟请求数。 |
tpm_limit | Number | body | Token per minute,每分钟 Token 使用量。 |
响应示例
命令执行完成后,返回如下结果:
{
"request_id": "1d121fd9-876c-40ad-bc40-a9e68ef3b986",
"output":
{
"deployed_model": "qwen-plus-2025-12-01-b6d61c71",
"gmt_create": "2026-01-07T13:52:44",
"gmt_modified": "2026-01-07T14:01:41",
"status": "PENDING",
"model_name": "qwen-plus-2025-12-01",
"base_model": "qwen-plus-2025-12-01",
"base_capacity": 4,
"capacity": 4,
"ready_capacity": 0,
"workspace_id": "llm-8v53e*******",
"charge_type": "post_paid",
"creator": "16542902******",
"modifier": "16542902********",
"plan": "mu",
"model_unit_spec": "MU1",
"enable_thinking": true,
"max_context_length": 1,
"rpm_limit": 1000,
"tpm_limit": 200
}
}响应参数
请参考创建模型部署任务的响应参数。
查询模型部署任务
地址
GET https://dashscope.aliyuncs.com/api/v1/deployments/{deployed_model}请求示例
通过以下命令可以查询指定专属服务的详细信息:
curl "https://dashscope.aliyuncs.com/api/v1/deployments/qwen-plus-202305099980-fac9-sample" \
--header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
--header 'Content-Type: application/json' 请求参数
参数 | 类型 | 传参方式 | 必选 | 说明 |
deployed_model | String | path | 是 | 新模型的唯一标识。 |
响应示例
命令执行完成后,返回如下结果:
{
"request_id": "66a855f0-a6fe-4b05-9786-fb30c7c6782d",
"output": {
"deployed_model": "emo-35b3f106-sample01",
"gmt_create": "2025-06-17T11:00:38",
"gmt_modified": "2025-06-17T11:06:13",
"status": "RUNNING",
"model_name": "emo",
"base_model": "emo",
"base_capacity": 1,
"capacity": 1,
"ready_capacity": 1,
"workspace_id": "llm-v71tlv3***",
"charge_type": "post_paid",
"creator": "175805416***",
"modifier": "175805416***"
}
}
响应参数
请参考创建模型部署任务的响应参数。
列举模型部署任务
地址
GET https://dashscope.aliyuncs.com/api/v1/deployments请求示例
通过以下命令可以获取专属服务列表:
curl "https://dashscope.aliyuncs.com/api/v1/deployments?page_no=1&page_size=100" \
--header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
--header 'Content-Type: application/json' 请求参数
参数 | 类型 | 传参方式 | 必选 | 说明 |
page_no | Number | query | 否 | 页码,默认值为1。 |
page_size | Number | query | 否 | 页大小,默认为50,最大值为200,最小值为1。 |
响应示例
命令执行完成后,返回以下结果:
{
"request_id": "7efdd3a7-a90d-96c6-b477-70055d59edf7",
"output": {
"page_no": 1,
"page_size": 10,
"total": 1,
"deployments": [
{
"deployed_model": "emo-35b3f106-sample01",
"gmt_create": "2025-06-17T11:00:38",
"gmt_modified": "2025-06-17T11:06:13",
"status": "RUNNING",
"model_name": "emo",
"base_model": "emo",
"base_capacity": 1,
"capacity": 1,
"ready_capacity": 1,
"workspace_id": "llm-v71tlv3d***",
"charge_type": "post_paid",
"creator": "175805416***",
"modifier": "175805416***"
}
]
}
}响应参数
请参考创建模型部署任务的响应参数。
更新模型部署任务
通过更新操作调整专属服务使用的资源单元数量。
地址
PUT https://dashscope.aliyuncs.com/api/v1/deployments/{deployed_model}/scale请求示例
通过以下命令可以将指定的服务进行扩缩容:
curl --request PUT "https://dashscope.aliyuncs.com/api/v1/deployments/emo-35b3f106-sample01/scale" \
--header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
--header 'Content-Type: application/json' \
--data '{
"capacity":2
}'请求参数
参数 | 类型 | 传参方式 | 必选 | 说明 | |
deployed_model | String | path | 是 | 新模型的唯一标识。 | |
capacity | Number | body | 条件必选 | 仅 具体支持情况请参考:模型单元部署的功能支持情况。 | 更新之后,模型所使用的资源单元。必须是 |
ptu_capacity | Object | body | 条件必选 | 仅 具体支持情况请参考:PTU部署的功能支持情况。 | 当设置 样例: |
ptu_capacity.input_tpm | Number | body | 所有模型支持,input token pre-minute,部署的模型每分钟支持的最大输入 Token 量。 | ||
ptu_capacity.output_tpm | Number | body | 所有模型支持,output token pre-minute,部署的模型每分钟支持的最大输出 Token 量。 | ||
ptu_capacity.thinking_output_tpm | Number | body | 部分模型支持,thinking output token pre-minute,部署的模型每分钟支持的预置思考最大输出 Token 量。 | ||
响应示例
命令执行完成后,返回以下结果:
{
"request_id": "6c6b7676-3fea-423b-bc26-c9e2337e1142",
"output": {
"deployed_model": "emo-35b3f106-sample01",
"gmt_create": "2025-06-17T11:00:38",
"gmt_modified": "2025-06-17T11:42:02.311",
"status": "UPDATING",
"model_name": "emo",
"base_model": "emo",
"base_capacity": 1,
"capacity": 2,
"ready_capacity": 1,
"workspace_id": "llm-v71tlv3dezezp2en",
"charge_type": "post_paid",
"creator": "17580541***",
"modifier": "17580541***"
}
}响应参数
请参考创建模型部署任务的响应参数。
删除模型部署任务
地址
DELETE https://dashscope.aliyuncs.com/api/v1/deployments/{deployed_model}请求示例
通过以下命令可以删除指定的部署任务。
curl --request DELETE "https://dashscope.aliyuncs.com/api/v1/deployments/emo-35b3f106-sample01" \
--header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
--header 'Content-Type: application/json' 请求参数
参数 | 类型 | 传参方式 | 必选 | 说明 |
deployed_model | String | path | 是 | 新模型的唯一标识。 |
响应示例
命令执行完成后,返回以下结果:
{
"request_id": "5378b78b-8564-481f-a3e0-580e551df22c",
"output": {
"deployed_model": "emo-35b3f106-sample01",
"gmt_create": "2025-06-17T11:00:38",
"gmt_modified": "2025-06-17T11:42:02",
"status": "DELETING",
"model_name": "emo",
"base_model": "emo",
"base_capacity": 1,
"capacity": 2,
"ready_capacity": 1,
"workspace_id": "llm-v71tlv3***",
"charge_type": "post_paid",
"creator": "175805416***",
"modifier": "175805416***"
}
}
响应参数
请参考创建模型部署任务的响应参数。
异常响应
响应示例
{
"request_id": "ca218d57-b91b-46b2-bd35-c41c6287bcf4",
"message": "Model: qwen-plus-20230703-cx7f not found!",
"code": "NotFound"
}响应参数
字段 | 类型 | 描述 |
request_id | String | 本次请求的系统唯一码。 |
code | String | 错误码。 |
message | String | 错误信息。 |
当请求出错时,可能返回以下错误:
错误码 | 错误信息 | 错误原因 |
NotFound | Model: xxx not found! |
|
Conflict | Deployed model xxx already exists, please specify a suffix. | 创建部署任务时使用了已使用过的suffix。 |
InvalidParameter | Invalid capacity (xx), capacity must be larger than or equal to 0 and multiples of 1 and less than 1000! | 创建/更新部署任务时指定了无效的算力单元数量。 |
