本文档以通义千问模型的部署为例进行说明,使用 API(HTTP)调用方式帮助您使用阿里云百炼提供的模型部署功能。
前提条件
您已经阅读了模型部署简介和使用 API 进行模型部署的相关内容,掌握了模型部署 API 的使用方法,并熟悉了在阿里云百炼平台上进行模型部署的基本步骤。
已配置百炼的 API-KEY, 请参考获取API Key。
获取可以部署的模型列表
地址
GET https://dashscope.aliyuncs.com/api/v1/deployments/models请求示例
通过下面的命令可以查询支持部署的模型。
curl "https://dashscope.aliyuncs.com/api/v1/deployments/models?page_no=1&page_size=100" \
--header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
--header 'Content-Type: application/json'请求参数
参数 | 类型 | 传参方式 | 必选 | 说明 |
page_no | Number | query | 否 | 页码,默认值为1。 |
page_size | Number | query | 否 | 页大小,默认为50,最大值为200,最小值为1。 |
响应示例
命令执行完成后,获得以下结果:
{
"request_id":"f7da015c-ea90-4d96-af89-2f8d7604026a",
"output":{
"models":[
{
"model_name":"emo",
"base_capacity":1
},
{
"model_name":"qwen-plus-ft-20230703-cx7f",
"base_capacity":8
}
...
],
"page_no":1,
"page_size":50,
"total":2
}
}响应参数
参数 | 类型 | 说明 |
model_name | String | 支持部署的模型名称。 |
base_capacity | String | 该字段定义了模型部署所需的最小资源单元数量。 |
page_no | Number | 查询页码。 |
page_size | Number | 查询页大小。 |
total | Long | 满足查询条件的所有模型个数。 |
创建模型部署任务
地址
POST https://dashscope.aliyuncs.com/api/v1/deployments请求示例
按模型单元的使用时长收费
执行以下部署命令后,即便您还没有调用模型,模型部署服务仍将在部署成功后开始计费。建议您先确认服务计费规则,再执行部署命令。
curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"model_name": "qwen-plus-2025-12-01",
"plan": "mu",
"deploy_spec": "MU1",
"enable_thinking": true,
"capacity": 4,
"max_context_length": 10000,
"rpm_limit": 500,
"tpm_limit": 1000
}'模型单元部署模式还支持以下更多设置:
配置内容 | 配置详情 |
配置模型推理模式 | 少部分模型的模型单元部署模式可选。
|
最长上下文 | 部分模型的模型单元部署模式支持该设置。最长上下文长度基于模型类型。 |
服务限流 | 部分模型的模型单元部署模式支持该设置,可限制模型调用的 RPM、TPM。 |
如何在 API 设置上述内容,请参考:使用 API 创建模型部署任务。
按模型 Token 使用量收费

curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"model_name": "qwen3-8b-ft-202511132025-0260",
"plan": "lora",
"capacity": 1,
"diaplay_name": "qwen3-8b-ft"
}'capacity 参数设置无效,但必须填写。如需希望扩缩容,请前往百炼模型部署控制台填写表单申请。
按算力单元的使用时长收费(仅适用于图片生成、视频生成)
执行以下部署命令后,即便您还没有调用模型,模型部署服务仍将在部署成功后开始计费。建议您先确认服务计费规则,再执行部署命令。

curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"model_name": "animate-anyone-detect",
"capacity": 2
}'请求参数
参数 | 类型 | 传参方式 | 必选 | 说明 | |||||||||
model_name | String | body | 是 | 待部署的模型名称,对应我的模型中的模型 ID。 | |||||||||
capacity | Number | body | 是 | 表示实际分配给模型的资源单元数量。必须是 按 Token 用量计费的部署方式,capacity 参数设置无效,但必须填写。如需希望扩缩容,请前往百炼模型部署控制台填写表单申请。 | |||||||||
plan | String | body | 否 | 支持三种部署后的计费模式:
调优后的模型支持的部署方式可以在我的模型中快速查询到。 | |||||||||
diasplay_name | String | body | 否 | 模型的控制台显示名称 | |||||||||
deploy_spec | String | body | 否 | 仅 具体支持情况请参考:模型单元部署的功能支持情况。 | 当设置 | ||||||||
enable_thinking | Boolean | body | 否 | 部分模型支持,可设置为 | |||||||||
max_context_length | Number | body | 否 | 部分模型支持。样例: | |||||||||
rpm_limit | Number | body | 否 | 部分模型支持, requests per minute,每分钟请求数。 | |||||||||
tpm_limit | Number | body | 否 | 部分模型支持, token per minute,每分钟 Token 使用量。 | |||||||||
suffix | String | body | 否 | 模型部署后,将生成新的模型名称,suffix 用于指定新模型名称的后缀,最大长度为8个字符且需全局唯一。每个模型在首次部署时,可以不指定后缀。如果需要对同一模型进行多次部署,则必须设置后缀以便于区分。 参考输出参数 deployed_model。 | |||||||||
支持的模型
响应示例
命令执行完成后,返回如下结果:
{
"request_id": "f2ae64f7-83cc-410c-bc0b-840443f7eb86",
"output": {
"deployed_model": "emo-35b3f106-sample01",
"gmt_create": "2025-06-17T11:00:38.68",
"gmt_modified": "2025-06-17T11:00:38.68",
"status": "PENDING",
"model_name": "emo",
"base_model": "emo",
"base_capacity": 1,
"capacity": 1,
"ready_capacity": 0,
"workspace_id": "llm-v71tlv3d***",
"charge_type": "post_paid",
"creator": "175805416***",
"modifier": "175805416***"
}
}响应参数
参数 | 类型 | 说明 |
request_id | String | 本次请求的ID。 |
output | Object | 本次部署任务的详细信息。 |
deployed_model | String | 新模型的唯一标识。在发起模型调用请求时需要在SDK参数传入。 |
gmt_create | String | 创建部署任务的时间。 |
gmt_modified | String | 修改部署任务的时间。 |
status | String | 部署任务的状态。
|
model_name | String | 部署任务使用的模型名称。 |
base_model | String | 部署任务使用的模型对应的基础模型ID。 |
base_capacity | Number | 基础模型运行所需的最小资源单元数量。 |
capacity | Number | 部署任务使用的资源单元数量。 |
ready_capacity | Number | 已就绪并可立即处理请求的资源单元数量。受限于资源初始化速度或硬件状态。 |
workspace_id | String | 部署任务所属的业务空间ID。 |
charge_type | String | 部署任务的扣费方法。 |
creator | String | 该部署任务创建人UID。 |
modifier | String | 对该部署任务进行最后一次操作的账号UID。 |
plan | String | 部署任务的计费模式。(部分模式不显示该参数) |
仅模型单元部署方式响应 | ||
model_unit_spec | String | 模型单元规格。 |
enable_thinking | Boolean | 是否开启思考模式,部分模型支持。 |
max_context_length | Number | 最大上下文长度限制。 |
rpm_limit | String | Requests per minute,每分钟请求数。 |
tpm_limit | Number | Token per minute,每分钟 Token 使用量。 |
修改部署的模型设置
仅模型单元部署方式的部分模型支持修改设置 rpm 和 tpm。
地址
PUT https://dashscope.aliyuncs.com/api/v1/deployments/{deployed_model}/update请求示例
通过以下命令可以查询指定专属服务的详细信息:
curl -X PUT "https://dashscope.aliyuncs.com/api/v1/deployments/{deployed_model}/update" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"rpm_limit": 1000,
"tpm_limit": 200
}'请求参数
参数 | 类型 | 传参方式 | 必选 | 说明 |
deployed_model | String | path | 是 | 新模型的唯一标识。 |
rpm_limit | Number | body | 至少填写一个参数 | Requests per minute,每分钟请求数。 |
tpm_limit | Number | body | Token per minute,每分钟 Token 使用量。 |
响应示例
命令执行完成后,返回如下结果:
{
"request_id": "1d121fd9-876c-40ad-bc40-a9e68ef3b986",
"output":
{
"deployed_model": "qwen-plus-2025-12-01-b6d61c71",
"gmt_create": "2026-01-07T13:52:44",
"gmt_modified": "2026-01-07T14:01:41",
"status": "PENDING",
"model_name": "qwen-plus-2025-12-01",
"base_model": "qwen-plus-2025-12-01",
"base_capacity": 4,
"capacity": 4,
"ready_capacity": 0,
"workspace_id": "llm-8v53e*******",
"charge_type": "post_paid",
"creator": "16542902******",
"modifier": "16542902********",
"plan": "mu",
"model_unit_spec": "MU1",
"enable_thinking": true,
"max_context_length": 1,
"rpm_limit": 1000,
"tpm_limit": 200
}
}响应参数
请参考创建模型部署任务的响应参数。
查询模型部署任务
地址
GET https://dashscope.aliyuncs.com/api/v1/deployments/{deployed_model}请求示例
通过以下命令可以查询指定专属服务的详细信息:
curl "https://dashscope.aliyuncs.com/api/v1/deployments/qwen-plus-202305099980-fac9-sample" \
--header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
--header 'Content-Type: application/json' 请求参数
参数 | 类型 | 传参方式 | 必选 | 说明 |
deployed_model | String | path | 是 | 新模型的唯一标识。 |
响应示例
命令执行完成后,返回如下结果:
{
"request_id": "66a855f0-a6fe-4b05-9786-fb30c7c6782d",
"output": {
"deployed_model": "emo-35b3f106-sample01",
"gmt_create": "2025-06-17T11:00:38",
"gmt_modified": "2025-06-17T11:06:13",
"status": "RUNNING",
"model_name": "emo",
"base_model": "emo",
"base_capacity": 1,
"capacity": 1,
"ready_capacity": 1,
"workspace_id": "llm-v71tlv3***",
"charge_type": "post_paid",
"creator": "175805416***",
"modifier": "175805416***"
}
}
响应参数
请参考创建模型部署任务的响应参数。
列举模型部署任务
地址
GET https://dashscope.aliyuncs.com/api/v1/deployments请求示例
通过以下命令可以获取专属服务列表:
curl "https://dashscope.aliyuncs.com/api/v1/deployments?page_no=1&page_size=100" \
--header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
--header 'Content-Type: application/json' 请求参数
参数 | 类型 | 传参方式 | 必选 | 说明 |
page_no | Number | query | 否 | 页码,默认值为1。 |
page_size | Number | query | 否 | 页大小,默认为50,最大值为200,最小值为1。 |
响应示例
命令执行完成后,返回以下结果:
{
"request_id": "7efdd3a7-a90d-96c6-b477-70055d59edf7",
"output": {
"page_no": 1,
"page_size": 10,
"total": 1,
"deployments": [
{
"deployed_model": "emo-35b3f106-sample01",
"gmt_create": "2025-06-17T11:00:38",
"gmt_modified": "2025-06-17T11:06:13",
"status": "RUNNING",
"model_name": "emo",
"base_model": "emo",
"base_capacity": 1,
"capacity": 1,
"ready_capacity": 1,
"workspace_id": "llm-v71tlv3d***",
"charge_type": "post_paid",
"creator": "175805416***",
"modifier": "175805416***",
"plan": "cu"
}
]
}
}响应参数
请参考创建模型部署任务的响应参数。
更新模型部署任务
通过更新操作调整专属服务使用的资源单元数量。
地址
PUT https://dashscope.aliyuncs.com/api/v1/deployments/{deployed_model}/scale请求示例
通过以下命令可以将指定的服务进行扩缩容:
curl --request PUT "https://dashscope.aliyuncs.com/api/v1/deployments/emo-35b3f106-sample01/scale" \
--header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
--header 'Content-Type: application/json' \
--data '{
"capacity":2
}'请求参数
参数 | 类型 | 传参方式 | 必选 | 说明 |
deployed_model | String | path | 是 | 新模型的唯一标识。 |
capacity | Number | body | 是 | 更新之后,模型所使用的资源单元。必须是 |
响应示例
命令执行完成后,返回以下结果:
{
"request_id": "6c6b7676-3fea-423b-bc26-c9e2337e1142",
"output": {
"deployed_model": "emo-35b3f106-sample01",
"gmt_create": "2025-06-17T11:00:38",
"gmt_modified": "2025-06-17T11:42:02.311",
"status": "UPDATING",
"model_name": "emo",
"base_model": "emo",
"base_capacity": 1,
"capacity": 2,
"ready_capacity": 1,
"workspace_id": "llm-v71tlv3dezezp2en",
"charge_type": "post_paid",
"creator": "17580541***",
"modifier": "17580541***"
}
}响应参数
请参考创建模型部署任务的响应参数。
删除模型部署任务
地址
DELETE https://dashscope.aliyuncs.com/api/v1/deployments/{deployed_model}请求示例
通过以下命令可以删除指定的部署任务。
curl --request DELETE "https://dashscope.aliyuncs.com/api/v1/deployments/emo-35b3f106-sample01" \
--header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
--header 'Content-Type: application/json' 请求参数
参数 | 类型 | 传参方式 | 必选 | 说明 |
deployed_model | String | path | 是 | 新模型的唯一标识。 |
响应示例
命令执行完成后,返回以下结果:
{
"request_id": "5378b78b-8564-481f-a3e0-580e551df22c",
"output": {
"deployed_model": "emo-35b3f106-sample01",
"gmt_create": "2025-06-17T11:00:38",
"gmt_modified": "2025-06-17T11:42:02",
"status": "DELETING",
"model_name": "emo",
"base_model": "emo",
"base_capacity": 1,
"capacity": 2,
"ready_capacity": 1,
"workspace_id": "llm-v71tlv3***",
"charge_type": "post_paid",
"creator": "175805416***",
"modifier": "175805416***"
}
}
响应参数
请参考创建模型部署任务的响应参数。
异常响应
响应示例
{
"request_id": "ca218d57-b91b-46b2-bd35-c41c6287bcf4",
"message": "Model: qwen-plus-20230703-cx7f not found!",
"code": "NotFound"
}响应参数
字段 | 类型 | 描述 |
request_id | String | 本次请求的系统唯一码。 |
code | String | 错误码。 |
message | String | 错误信息。 |
当请求出错时,可能返回以下错误:
错误码 | 错误信息 | 错误原因 |
NotFound | Model: xxx not found! |
|
Conflict | Deployed model xxx already exists, please specify a suffix. | 创建部署任务时使用了已使用过的suffix。 |
InvalidParameter | Invalid capacity (xx), capacity must be larger than or equal to 0 and multiples of 1 and less than 1000! | 创建/更新部署任务时指定了无效的算力单元数量。 |
