模型部署API参考-大模型服务平台百炼(Model Studio)-阿里云帮助中心

本文档以通义千问模型的部署为例进行说明，使用 API（HTTP）调用方式帮助您使用阿里云百炼提供的模型部署功能。

前提条件

您已经阅读了模型部署简介和使用 API 进行模型部署的相关内容，掌握了模型部署 API 的使用方法，并熟悉了在阿里云百炼平台上进行模型部署的基本步骤。
已配置百炼的 API-KEY，请参考获取API Key。

获取可以部署的模型列表

地址

GET https://dashscope.aliyuncs.com/api/v1/deployments/models

请求示例

通过下面的命令可以查询支持部署的模型。

curl "https://dashscope.aliyuncs.com/api/v1/deployments/models?page_no=1&page_size=100" \
    --header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
    --header 'Content-Type: application/json'

请求参数

参数	类型	传参方式	必选	说明
page_no	Number	query	否	页码，默认值为1。
page_size	Number	query	否	页大小，默认为50，最大值为200，最小值为1。

响应示例

命令执行完成后，获得以下结果：

{
    "request_id":"f7da015c-ea90-4d96-af89-2f8d7604026a",
    "output":{
        "models":[
            {
                "model_name":"emo",
                "base_capacity":1
            },
            {
                "model_name":"qwen-plus-ft-20230703-cx7f",
                "base_capacity":8
            }
            ...
        ],
        "page_no":1,
        "page_size":50,
        "total":2
    }
}

响应参数

参数	类型	说明
model_name	String	支持部署的模型名称。
base_capacity	String	该字段定义了模型部署所需的最小资源单元数量。
page_no	Number	查询页码。
page_size	Number	查询页大小。
total	Long	满足查询条件的所有模型个数。

创建模型部署任务

地址

POST https://dashscope.aliyuncs.com/api/v1/deployments

请求示例

按模型单元的使用时长收费

说明

执行以下部署命令后，即便您还没有调用模型，模型部署服务仍将在部署成功后开始计费。建议您先确认服务计费规则，再执行部署命令。

curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{        
    "model_name": "qwen-plus-2025-12-01",
    "plan": "mu",
    "deploy_spec": "MU1",
    "enable_thinking": true,
    "capacity": 4,
    "max_context_length": 10000,
    "rpm_limit": 500,
    "tpm_limit": 1000
}'

模型单元部署模式还支持以下更多设置：

配置内容	配置详情
配置模型推理模式	少部分模型的模型单元部署模式可选。 Instruct - 模型部署后以非思考模式进行推理。 Thinking - 模型部署后以思考模式进行推理。
最长上下文	部分模型的模型单元部署模式支持该设置。最长上下文长度基于模型类型。
服务限流	部分模型的模型单元部署模式支持该设置，可限制模型调用的 RPM、TPM。

如何在 API 设置上述内容，请参考：使用 API 创建模型部署任务。

按模型 Token 使用量收费

curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{        
    "model_name": "qwen3-8b-ft-202511132025-0260",
    "plan": "lora",
    "capacity": 1,
    "diaplay_name": "qwen3-8b-ft"
}'

capacity 参数设置无效，但必须填写。如需希望扩缩容，请前往百炼模型部署控制台填写表单申请。

按算力单元的使用时长收费（仅适用于图片生成、视频生成）

说明

执行以下部署命令后，即便您还没有调用模型，模型部署服务仍将在部署成功后开始计费。建议您先确认服务计费规则，再执行部署命令。

curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{        
    "model_name": "animate-anyone-detect",
    "capacity": 2
}'

请求参数

参数

类型

传参方式

必选

说明

model_name

String

body

是

待部署的模型名称，对应我的模型中的模型 ID。

capacity

Number

body

是

表示实际分配给模型的资源单元数量。必须是base_capacity的整数倍。

按 Token 用量计费的部署方式，capacity 参数设置无效，但必须填写。如需希望扩缩容，请前往百炼模型部署控制台填写表单申请。

plan

String

body

否

支持三种部署后的计费模式：

计费方式	plan 设置
按算力计费	不设置该参数
按 Token 用量计费	`"plan": "lora"`
按模型单元计费	`"plan": "mu"`

调优后的模型支持的部署方式可以在我的模型中快速查询到。

diasplay_name

String

body

否

模型的控制台显示名称

deploy_spec

String

body

否

仅"plan": "mu"时，可填写该设置。

具体支持情况请参考：模型单元部署的功能支持情况。

当设置"plan": "mu"时，该参数必须填写。样例："deploy_spec": "MU1"。

enable_thinking

Boolean

body

否

部分模型支持，可设置为true或false。

max_context_length

Number

body

否

部分模型支持。样例："max_context_length": 131072。

rpm_limit

Number

body

否

部分模型支持， requests per minute，每分钟请求数。

tpm_limit

Number

body

否

部分模型支持， token per minute，每分钟 Token 使用量。

suffix

String

body

否

模型部署后，将生成新的模型名称，suffix 用于指定新模型名称的后缀，最大长度为8个字符且需全局唯一。每个模型在首次部署时，可以不指定后缀。如果需要对同一模型进行多次部署，则必须设置后缀以便于区分。

参考输出参数 deployed_model。

支持的模型

模型单元部署模式下，限流、推理加速等功能的支持情况。

千问

模型名称	模型类型	支持限流	模型单元规格	最长上下文	后付费-按小时（不满 1 分钟按 1 分钟计费）	预付费-按天（不满 1 天按 1 天计费）
千问3-14B	Instruct/Thinking	不支持	I 型模型单元（MU1）	固定为： `131,072` 详情请参考：qwen-3	¥96/小时	¥46,000/月
千问3-8B	Instruct/Thinking	不支持		固定为： `131,072` 详情请参考：qwen-3
千问2.5-开源版-14B	Instruct	不支持		固定为： `131,072` 详情请参考：qwen-2.5
千问2.5-开源版-7B	Instruct	不支持		固定为： `131,072` 详情请参考：qwen-2.5
千问2-开源版-7B	Instruct	不支持		固定为： `131,072`
千问-Turbo-0624（2024）	Instruct	不支持		固定为： `8,000`

千问-Plus-2025-12-01	Instruct/Thinking	支持	I 型模型单元（MU1）	可设置：`1~1,000,000` 详情请参考：qwen-plus	¥192/小时	¥92,000/月
千问-Plus-2025-07-28	Instruct/Thinking	支持		可设置：`1~1,000,000` 详情请参考：qwen-plus
千问-Flash-2025-07-28	Instruct/Thinking	支持		可设置：`1~1,000,000` 详情请参考：qwen-flash
千问-Plus-0723（2024）	Instruct	不支持		固定为： `32,000`
千问2.5-开源版-72B	Instruct	不支持		固定为： `131,072` 详情请参考：qwen-2.5
千问2.5-开源版-32B	Instruct	不支持		固定为： `131,072` 详情请参考：qwen-2.5
千问2-开源版-72B	Instruct	不支持		固定为： `131,072`
千问3-32B	Instruct	不支持		固定为： `131,072` 详情请参考：qwen-3

千问3-Max-2025-09-23	Instruct	支持	II 型 / III 型模型单元（MU2/MU3）	可设置：`1-262,144` 详情请参考：qwen-max	I 型模型单元：¥448/小时 III 型模型单元：¥1048/小时	I 型模型单元：¥216,000/月 III 型模型单元：¥504,000/月

模型类型：

Instruct - 模型部署后以非思考模式进行推理。
Thinking - 模型部署后以思考模式进行推理。

千问VL

模型服务	模型类型	支持限流	模型单元规格	最长上下文	单价（不满 1 分钟按 1 分钟计费）	包月单价（不满 1 天按 1 天计费）（如在首月内提前退订，日单价将按 1.2 倍计费）
千问VL-Max-2025-08-13	Instruct	支持	VI 型模型单元（MU6）	固定为： `131,072`	¥72/小时	¥34,800/月

千问VL-Plus	Instruct	不支持	I 型模型单元（MU1）	固定为： `131,072`	¥40/小时	¥20,000/月

千问3-VL-8B-Instruct	Instruct	不支持	I 型模型单元（MU1）	固定为： `131,072`	¥96/小时	¥46,000/月
千问3-VL-8B-Thinking	Thinking	不支持
千问3-VL-4B-Instruct	Instruct	不支持
千问2.5-VL-7B	Instruct	不支持

千问VL-Max-0201（2024）	Instruct	不支持		固定为： `8,000`	¥160/小时	¥80,000/月

千问3-VL-Flash-2025-10-15	Instruct/Thinking	支持	I 型模型单元（MU1）	固定为： `262,144`	¥192/小时	¥92,000/月
千问3-VL-Plus-2025-09-23	Instruct/Thinking	不支持		固定为： `262,144`
千问3-VL-235B-A22B-Instruct	Instruct	不支持		固定为： `131,072`
千问3-VL-32B-Instruct	Instruct	不支持
千问2.5-VL-32B	Instruct	不支持
千问2.5-VL-72B	Instruct	不支持

模型类型：

Instruct - 模型部署后以非思考模式进行推理。
Thinking - 模型部署后以思考模式进行推理。
Instruct/Thinking - 可在模型部署时选择是否开启思考模式。

响应示例

命令执行完成后，返回如下结果：

{
  "request_id": "f2ae64f7-83cc-410c-bc0b-840443f7eb86",
  "output": {
    "deployed_model": "emo-35b3f106-sample01",
    "gmt_create": "2025-06-17T11:00:38.68",
    "gmt_modified": "2025-06-17T11:00:38.68",
    "status": "PENDING",
    "model_name": "emo",
    "base_model": "emo",
    "base_capacity": 1,
    "capacity": 1,
    "ready_capacity": 0,
    "workspace_id": "llm-v71tlv3d***",
    "charge_type": "post_paid",
    "creator": "175805416***",
    "modifier": "175805416***"
  }
}

响应参数

参数	类型	说明
request_id	String	本次请求的ID。
output	Object	本次部署任务的详细信息。
deployed_model	String	新模型的唯一标识。在发起模型调用请求时需要在SDK参数传入。
gmt_create	String	创建部署任务的时间。
gmt_modified	String	修改部署任务的时间。
status	String	部署任务的状态。 PENDING：正在创建部署任务。 UPDATING：正在更新部署任务。 RUNNING：部署任务正在运行，此时已部署的模型可以正常处理请求。 STOPPED：部署任务已经停止，此时的部署任务不会被计费。 DELETING：正在删除部署任务。 FAILED：部署任务创建或更新失败。
model_name	String	部署任务使用的模型名称。
base_model	String	部署任务使用的模型对应的基础模型ID。
base_capacity	Number	基础模型运行所需的最小资源单元数量。
capacity	Number	部署任务使用的资源单元数量。
ready_capacity	Number	已就绪并可立即处理请求的资源单元数量。受限于资源初始化速度或硬件状态。
workspace_id	String	部署任务所属的业务空间ID。
charge_type	String	部署任务的扣费方法。 `post_paid`：后付费。
creator	String	该部署任务创建人UID。
modifier	String	对该部署任务进行最后一次操作的账号UID。
plan	String	部署任务的计费模式。（部分模式不显示该参数）
仅模型单元部署方式响应
model_unit_spec	String	模型单元规格。
enable_thinking	Boolean	是否开启思考模式，部分模型支持。
max_context_length	Number	最大上下文长度限制。
rpm_limit	String	Requests per minute，每分钟请求数。
tpm_limit	Number	Token per minute，每分钟 Token 使用量。

修改部署的模型设置

说明

仅模型单元部署方式的部分模型支持修改设置 rpm 和 tpm。

地址

PUT https://dashscope.aliyuncs.com/api/v1/deployments/{deployed_model}/update

请求示例

通过以下命令可以查询指定专属服务的详细信息：

curl -X PUT "https://dashscope.aliyuncs.com/api/v1/deployments/{deployed_model}/update" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "rpm_limit": 1000,
    "tpm_limit": 200
}'

请求参数

参数	类型	传参方式	必选	说明
deployed_model	String	path	是	新模型的唯一标识。
rpm_limit	Number	body	至少填写一个参数	Requests per minute，每分钟请求数。
tpm_limit	Number	body	至少填写一个参数	Token per minute，每分钟 Token 使用量。

响应示例

命令执行完成后，返回如下结果：

{
    "request_id": "1d121fd9-876c-40ad-bc40-a9e68ef3b986",
    "output":
    {
        "deployed_model": "qwen-plus-2025-12-01-b6d61c71",
        "gmt_create": "2026-01-07T13:52:44",
        "gmt_modified": "2026-01-07T14:01:41",
        "status": "PENDING",
        "model_name": "qwen-plus-2025-12-01",
        "base_model": "qwen-plus-2025-12-01",
        "base_capacity": 4,
        "capacity": 4,
        "ready_capacity": 0,
        "workspace_id": "llm-8v53e*******",
        "charge_type": "post_paid",
        "creator": "16542902******",
        "modifier": "16542902********",
        "plan": "mu",
        "model_unit_spec": "MU1",
        "enable_thinking": true,
        "max_context_length": 1,
        "rpm_limit": 1000,
        "tpm_limit": 200
    }
}

响应参数

请参考创建模型部署任务的响应参数。

查询模型部署任务

地址

GET https://dashscope.aliyuncs.com/api/v1/deployments/{deployed_model}

请求示例

通过以下命令可以查询指定专属服务的详细信息：

curl "https://dashscope.aliyuncs.com/api/v1/deployments/qwen-plus-202305099980-fac9-sample" \
    --header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
    --header 'Content-Type: application/json'

请求参数

参数	类型	传参方式	必选	说明
deployed_model	String	path	是	新模型的唯一标识。

响应示例

命令执行完成后，返回如下结果：

{
  "request_id": "66a855f0-a6fe-4b05-9786-fb30c7c6782d",
  "output": {
    "deployed_model": "emo-35b3f106-sample01",
    "gmt_create": "2025-06-17T11:00:38",
    "gmt_modified": "2025-06-17T11:06:13",
    "status": "RUNNING",
    "model_name": "emo",
    "base_model": "emo",
    "base_capacity": 1,
    "capacity": 1,
    "ready_capacity": 1,
    "workspace_id": "llm-v71tlv3***",
    "charge_type": "post_paid",
    "creator": "175805416***",
    "modifier": "175805416***"
  }
}

响应参数

请参考创建模型部署任务的响应参数。

列举模型部署任务

地址

GET https://dashscope.aliyuncs.com/api/v1/deployments

请求示例

通过以下命令可以获取专属服务列表：

curl "https://dashscope.aliyuncs.com/api/v1/deployments?page_no=1&page_size=100" \
    --header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
    --header 'Content-Type: application/json'

请求参数

参数	类型	传参方式	必选	说明
page_no	Number	query	否	页码，默认值为1。
page_size	Number	query	否	页大小，默认为50，最大值为200，最小值为1。

响应示例

命令执行完成后，返回以下结果：

{
  "request_id": "7efdd3a7-a90d-96c6-b477-70055d59edf7",
  "output": {
    "page_no": 1,
    "page_size": 10,
    "total": 1,
    "deployments": [
      {
        "deployed_model": "emo-35b3f106-sample01",
        "gmt_create": "2025-06-17T11:00:38",
        "gmt_modified": "2025-06-17T11:06:13",
        "status": "RUNNING",
        "model_name": "emo",
        "base_model": "emo",
        "base_capacity": 1,
        "capacity": 1,
        "ready_capacity": 1,
        "workspace_id": "llm-v71tlv3d***",
        "charge_type": "post_paid",
        "creator": "175805416***",
        "modifier": "175805416***",
        "plan": "cu"
      }
    ]
  }
}

响应参数

请参考创建模型部署任务的响应参数。

更新模型部署任务

通过更新操作调整专属服务使用的资源单元数量。

地址

PUT https://dashscope.aliyuncs.com/api/v1/deployments/{deployed_model}/scale

请求示例

通过以下命令可以将指定的服务进行扩缩容：

curl --request PUT "https://dashscope.aliyuncs.com/api/v1/deployments/emo-35b3f106-sample01/scale" \
    --header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
    --header 'Content-Type: application/json' \
    --data '{    
                "capacity":2
            }'

请求参数

参数	类型	传参方式	必选	说明
deployed_model	String	path	是	新模型的唯一标识。
capacity	Number	body	是	更新之后，模型所使用的资源单元。必须是`base_capacity`的整数倍。

响应示例

命令执行完成后，返回以下结果：

{
  "request_id": "6c6b7676-3fea-423b-bc26-c9e2337e1142",
  "output": {
    "deployed_model": "emo-35b3f106-sample01",
    "gmt_create": "2025-06-17T11:00:38",
    "gmt_modified": "2025-06-17T11:42:02.311",
    "status": "UPDATING",
    "model_name": "emo",
    "base_model": "emo",
    "base_capacity": 1,
    "capacity": 2,
    "ready_capacity": 1,
    "workspace_id": "llm-v71tlv3dezezp2en",
    "charge_type": "post_paid",
    "creator": "17580541***",
    "modifier": "17580541***"
  }
}

响应参数

请参考创建模型部署任务的响应参数。

删除模型部署任务

地址

DELETE https://dashscope.aliyuncs.com/api/v1/deployments/{deployed_model}

请求示例

通过以下命令可以删除指定的部署任务。

curl --request DELETE "https://dashscope.aliyuncs.com/api/v1/deployments/emo-35b3f106-sample01" \
    --header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
    --header 'Content-Type: application/json'

请求参数

参数	类型	传参方式	必选	说明
deployed_model	String	path	是	新模型的唯一标识。

响应示例

命令执行完成后，返回以下结果：

{
  "request_id": "5378b78b-8564-481f-a3e0-580e551df22c",
  "output": {
    "deployed_model": "emo-35b3f106-sample01",
    "gmt_create": "2025-06-17T11:00:38",
    "gmt_modified": "2025-06-17T11:42:02",
    "status": "DELETING",
    "model_name": "emo",
    "base_model": "emo",
    "base_capacity": 1,
    "capacity": 2,
    "ready_capacity": 1,
    "workspace_id": "llm-v71tlv3***",
    "charge_type": "post_paid",
    "creator": "175805416***",
    "modifier": "175805416***"
  }
}

响应参数

请参考创建模型部署任务的响应参数。

异常响应

响应示例

{
    "request_id": "ca218d57-b91b-46b2-bd35-c41c6287bcf4",
    "message": "Model: qwen-plus-20230703-cx7f not found!",
    "code": "NotFound"
}

响应参数

字段	类型	描述
request_id	String	本次请求的系统唯一码。
code	String	错误码。
message	String	错误信息。

当请求出错时，可能返回以下错误：

错误码	错误信息	错误原因
NotFound	Model: xxx not found!	创建部署任务时指定了不存在的模型。查询/更新/删除部署任务时指定了不存在的模型。
Conflict	Deployed model xxx already exists, please specify a suffix.	创建部署任务时使用了已使用过的suffix。
InvalidParameter	Invalid capacity (xx), capacity must be larger than or equal to 0 and multiples of 1 and less than 1000!	创建/更新部署任务时指定了无效的算力单元数量。