使用API管理模型部署-大模型服务平台百炼-阿里云

本文档以通义千问模型的部署为例进行说明，使用 API（HTTP）调用方式帮助您使用阿里云百炼提供的模型部署功能。

前提条件

您已经阅读了模型部署简介和使用 API 进行模型部署的相关内容，掌握了模型部署 API 的使用方法，并熟悉了在阿里云百炼平台上进行模型部署的基本步骤。
已开通服务并获得API-KEY，请参考获取与配置 API Key。
已导入API-KEY，请参考配置API Key到环境变量。

获取可以部署的模型列表

地址

GET https://dashscope.aliyuncs.com/api/v1/deployments/models

请求示例

通过下面的命令可以查询支持部署的模型。

curl "https://dashscope.aliyuncs.com/api/v1/deployments/models?page_no=1&page_size=100" \
    --header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
    --header 'Content-Type: application/json'

请求参数

参数	类型	传参方式	必选	说明
page_no	Int	query	否	页码，默认值为1。
page_size	Int	query	否	页大小，默认为50，最大值为200，最小值为1。

响应示例

命令执行完成后，获得以下结果：

{
    "request_id":"f7da015c-ea90-4d96-af89-2f8d7604026a",
    "output":{
        "models":[
            {
                "model_name":"emo",
                "base_capacity":1
            },
            {
                "model_name":"qwen-plus-ft-20230703-cx7f",
                "base_capacity":8
            }
            ...
        ],
        "page_no":1,
        "page_size":50,
        "total":2
    }
}

响应参数

参数	类型	说明
model_name	String	支持部署的模型名称。
base_capacity	String	该字段定义了模型部署所需的最小资源单元数量。
page_no	Int	查询页码。
page_size	Int	查询页大小。
total	Long	满足查询条件的所有模型个数。

创建模型部署任务

地址

POST https://dashscope.aliyuncs.com/api/v1/deployments

请求示例

curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
    --header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
    --header 'Content-Type: application/json' \
    --data '{        
                "model_name": "emo",      
                "capacity": 1,        
                "suffix": "sample"
            }'

请求参数

参数

类型

传参方式

必选

说明

model_name

String

body

是

待部署的模型名称，对应我的模型中的 code 列内容。

capacity

Int

body

是

表示实际分配给模型的资源单元数量。必须是base_capacity的整数倍。

按 Token 用量计费的部署方式，capacity 参数设置无效，但必须填写。如需希望扩缩容，请前往百炼模型部署控制台填写表单申请。

plan

String

body

否

支持三种部署后的计费模式：

计费方式	plan 设置
按算力计费	不设置该参数
按 Token 用量计费	`"plan": "lora"`
按模型单元计费	`"plan": "mu"`

deploy_spec

String

body

否

仅"plan": "mu"时，需要填写，仅支持设置为"deploy_spec": "MU1"。

suffix

String

body

否

模型部署后，将生成新的模型名称，suffix用于指定新模型名称的后缀，最大长度为8个字符且需全局唯一。每个模型在首次部署时，可以不指定后缀。如果需要对同一模型进行多次部署，则必须设置后缀以便于区分。

参考输出参数deployed_model。

响应示例

命令执行完成后，返回如下结果：

{
  "request_id": "f2ae64f7-83cc-410c-bc0b-840443f7eb86",
  "output": {
    "deployed_model": "emo-35b3f106-sample01",
    "gmt_create": "2025-06-17T11:00:38.68",
    "gmt_modified": "2025-06-17T11:00:38.68",
    "status": "PENDING",
    "model_name": "emo",
    "base_model": "emo",
    "base_capacity": 1,
    "capacity": 1,
    "ready_capacity": 0,
    "workspace_id": "llm-v71tlv3d***",
    "charge_type": "post_paid",
    "creator": "175805416***",
    "modifier": "175805416***"
  }
}

响应参数

参数	类型	说明
request_id	String	本次请求的ID。
output	Object	本次部署任务的详细信息。
deployed_model	String	新模型的唯一标识。在发起模型调用请求时需要在SDK参数传入。
gmt_create	String	创建部署任务的时间。
gmt_modified	String	修改部署任务的时间。
status	String	部署任务的状态。 PENDING：正在创建部署任务。 UPDATING：正在更新部署任务。 RUNNING：部署任务正在运行，此时已部署的模型可以正常处理请求。 STOPPED：部署任务已经停止，此时的部署任务不会被计费。 DELETING：正在删除部署任务。 FAILED：部署任务创建或更新失败。
model_name	String	部署任务使用的模型名称。
base_model	String	部署任务使用的模型对应的基础模型ID。
base_capacity	Int	基础模型运行所需的最小资源单元数量。
capacity	Int	部署任务使用的资源单元数量。
ready_capacity	Int	已就绪并可立即处理请求的资源单元数量。受限于资源初始化速度或硬件状态。
workspace_id	String	部署任务所属的业务空间ID。
charge_type	String	部署任务的扣费方法。 `post_paid`：后付费。
creator	String	该部署任务创建人UID。
modifier	String	对该部署任务进行最后一次操作的账号UID。
plan	String	部署任务的计费模式。（部分模式不显示该参数）
model_unit_spec	String	模型单元规格，仅按模型单元计费方式显示。

查询模型部署任务

地址

GET https://dashscope.aliyuncs.com/api/v1/deployments/{deployed_model}

请求示例

通过以下命令可以查询指定专属服务的详细信息：

curl "https://dashscope.aliyuncs.com/api/v1/deployments/qwen-plus-202305099980-fac9-sample" \
    --header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
    --header 'Content-Type: application/json'

请求参数

参数	类型	传参方式	必选	说明
deployed_model	String	path	是	新模型的唯一标识。

响应示例

命令执行完成后，返回如下结果：

{
  "request_id": "66a855f0-a6fe-4b05-9786-fb30c7c6782d",
  "output": {
    "deployed_model": "emo-35b3f106-sample01",
    "gmt_create": "2025-06-17T11:00:38",
    "gmt_modified": "2025-06-17T11:06:13",
    "status": "RUNNING",
    "model_name": "emo",
    "base_model": "emo",
    "base_capacity": 1,
    "capacity": 1,
    "ready_capacity": 1,
    "workspace_id": "llm-v71tlv3***",
    "charge_type": "post_paid",
    "creator": "175805416***",
    "modifier": "175805416***"
  }
}

响应参数

请参考创建模型部署任务的响应参数。

列举模型部署任务

地址

GET https://dashscope.aliyuncs.com/api/v1/deployments

请求示例

通过以下命令可以获取专属服务列表：

curl "https://dashscope.aliyuncs.com/api/v1/deployments?page_no=1&page_size=100" \
    --header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
    --header 'Content-Type: application/json'

请求参数

参数	类型	传参方式	必选	说明
page_no	Int	query	否	页码，默认值为1。
page_size	Int	query	否	页大小，默认为50，最大值为200，最小值为1。

响应示例

命令执行完成后，返回以下结果：

{
  "request_id": "7efdd3a7-a90d-96c6-b477-70055d59edf7",
  "output": {
    "page_no": 1,
    "page_size": 10,
    "total": 1,
    "deployments": [
      {
        "deployed_model": "emo-35b3f106-sample01",
        "gmt_create": "2025-06-17T11:00:38",
        "gmt_modified": "2025-06-17T11:06:13",
        "status": "RUNNING",
        "model_name": "emo",
        "base_model": "emo",
        "base_capacity": 1,
        "capacity": 1,
        "ready_capacity": 1,
        "workspace_id": "llm-v71tlv3d***",
        "charge_type": "post_paid",
        "creator": "175805416***",
        "modifier": "175805416***",
        "plan": "cu"
      }
    ]
  }
}

响应参数

请参考创建模型部署任务的响应参数。

更新模型部署任务

通过更新操作调整专属服务使用的资源单元数量。

地址

PUT https://dashscope.aliyuncs.com/api/v1/deployments/{deployed_model}/scale

请求示例

通过以下命令可以将指定的服务进行扩缩容：

curl --request PUT "https://dashscope.aliyuncs.com/api/v1/deployments/emo-35b3f106-sample01/scale" \
    --header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
    --header 'Content-Type: application/json' \
    --data '{    
                "capacity":2
            }'

请求参数

参数	类型	传参方式	必选	说明
deployed_model	String	path	是	新模型的唯一标识。
capacity	Int	body	是	更新之后，模型所使用的资源单元。必须是`base_capacity`的整数倍。

响应示例

命令执行完成后，返回以下结果：

{
  "request_id": "6c6b7676-3fea-423b-bc26-c9e2337e1142",
  "output": {
    "deployed_model": "emo-35b3f106-sample01",
    "gmt_create": "2025-06-17T11:00:38",
    "gmt_modified": "2025-06-17T11:42:02.311",
    "status": "UPDATING",
    "model_name": "emo",
    "base_model": "emo",
    "base_capacity": 1,
    "capacity": 2,
    "ready_capacity": 1,
    "workspace_id": "llm-v71tlv3dezezp2en",
    "charge_type": "post_paid",
    "creator": "17580541***",
    "modifier": "17580541***"
  }
}

响应参数

请参考创建模型部署任务的响应参数。

删除模型部署任务

地址

DELETE https://dashscope.aliyuncs.com/api/v1/deployments/{deployed_model}

请求示例

通过以下命令可以删除指定的部署任务。

curl --request DELETE "https://dashscope.aliyuncs.com/api/v1/deployments/emo-35b3f106-sample01" \
    --header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
    --header 'Content-Type: application/json'

请求参数

参数	类型	传参方式	必选	说明
deployed_model	String	path	是	新模型的唯一标识。

响应示例

命令执行完成后，返回以下结果：

{
  "request_id": "5378b78b-8564-481f-a3e0-580e551df22c",
  "output": {
    "deployed_model": "emo-35b3f106-sample01",
    "gmt_create": "2025-06-17T11:00:38",
    "gmt_modified": "2025-06-17T11:42:02",
    "status": "DELETING",
    "model_name": "emo",
    "base_model": "emo",
    "base_capacity": 1,
    "capacity": 2,
    "ready_capacity": 1,
    "workspace_id": "llm-v71tlv3***",
    "charge_type": "post_paid",
    "creator": "175805416***",
    "modifier": "175805416***"
  }
}

响应参数

请参考创建模型部署任务的响应参数。

异常响应

响应示例

{
    "request_id": "ca218d57-b91b-46b2-bd35-c41c6287bcf4",
    "message": "Model: qwen-plus-20230703-cx7f not found!",
    "code": "NotFound"
}

响应参数

字段	类型	描述
request_id	String	本次请求的系统唯一码。
code	String	错误码。
message	String	错误信息。

当请求出错时，可能返回以下错误：

错误码	错误信息	错误原因
NotFound	Model: xxx not found!	创建部署任务时指定了不存在的模型。查询/更新/删除部署任务时指定了不存在的模型。
Conflict	Deployed model xxx already exists, please specify a suffix.	创建部署任务时使用了已使用过的suffix。
InvalidParameter	Invalid capacity (xx), capacity must be larger than or equal to 0 and multiples of 1 and less than 1000!	创建/更新部署任务时指定了无效的算力单元数量。