部署扩缩容

更新时间:
复制为 MD 格式

对指定部署进行扩缩容操作。

前提条件

更新模型部署任务

通过更新操作调整专属服务使用的资源单元数量。

地址

PUT https://dashscope.aliyuncs.com/api/v1/deployments/{deployed_model}/scale

请求示例

通过以下命令可以将指定的服务进行扩缩容:

curl --request PUT "https://dashscope.aliyuncs.com/api/v1/deployments/emo-35b3f106-sample01/scale" \
    --header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
    --header 'Content-Type: application/json' \
    --data '{
                "capacity":2
            }'

请求参数

参数

类型

传参方式

必选

说明

deployed_model

String

path

新模型的唯一标识,可通过创建部署列举部署接口获取。

capacity

Number

body

条件必选

"plan": "mu"时,可填写该设置。

具体支持情况请参考:模型单元部署的功能支持情况

更新之后,模型所使用的资源单元。必须base_capacity的整数倍。

ptu_capacity

Object

body

条件必选

"plan": "ptu"时,可填写该设置。

具体支持情况请参考:PTU部署的功能支持情况

当设置"plan": "ptu"时,该参数才生效。

样例:"ptu_capacity": { "input_tpm": 10000, "output_tpm": 1000 }

ptu_capacity.input_tpm

Number

body

所有模型支持,input token pre-minute,部署的模型每分钟支持的最大输入 Token 量。

ptu_capacity.output_tpm

Number

body

所有模型支持,output token pre-minute,部署的模型每分钟支持的最大输出 Token 量。

ptu_capacity.thinking_output_tpm

Number

body

部分模型支持,thinking output token pre-minute,部署的模型每分钟支持的预置思考最大输出 Token 量。

响应示例

命令执行完成后,返回以下结果:

{
  "request_id": "6c6b7676-3fea-423b-bc26-c9e2337e1142",
  "output": {
    "deployed_model": "emo-35b3f106-sample01",
    "gmt_create": "2025-06-17T11:00:38",
    "gmt_modified": "2025-06-17T11:42:02.311",
    "status": "UPDATING",
    "model_name": "emo",
    "base_model": "emo",
    "base_capacity": 1,
    "capacity": 2,
    "ready_capacity": 1,
    "workspace_id": "llm-v71tlv3dezezp2en",
    "charge_type": "post_paid",
    "creator": "17580541***",
    "modifier": "17580541***"
  }
}

响应参数

请参考创建模型部署任务的响应参数。

异常响应

响应示例

{
    "request_id": "ca218d57-b91b-46b2-bd35-c41c6287bcf4",
    "message": "Model: qwen-plus-20230703-cx7f not found!",
    "code": "NotFound"
}

响应参数

字段

类型

描述

request_id

String

本次请求的系统唯一码。

code

String

错误码。

message

String

错误信息。

当请求出错时,可能返回以下错误:

错误码

错误信息

错误原因

NotFound

Model: xxx not found!

  • 创建部署任务时指定了不存在的模型。

  • 查询/更新/删除部署任务时指定了不存在的模型。

Conflict

Deployed model xxx already exists, please specify a suffix.

创建部署任务时使用了已使用过的suffix。

InvalidParameter

Invalid capacity (xx), capacity must be larger than or equal to 0 and multiples of 1 and less than 1000!

创建/更新部署任务时指定了无效的算力单元数量。