模型部署API参考

更新时间:
复制为 MD 格式

本文档以通义千问模型的部署为例进行说明,使用 API(HTTP)调用方式帮助您使用阿里云百炼提供的模型部署功能。

前提条件

获取可以部署的模型列表

地址

GET https://dashscope.aliyuncs.com/api/v1/deployments/models

请求示例

通过下面的命令可以查询支持部署的模型,推荐使用version=v1.0获取包含部署方案和模板信息的完整响应。

curl "https://dashscope.aliyuncs.com/api/v1/deployments/models?page_no=1&page_size=100&version=v1.0&model_source=base" \
    --header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
    --header 'Content-Type: application/json'

查询用户微调模型:

curl "https://dashscope.aliyuncs.com/api/v1/deployments/models?page_no=1&page_size=100&version=v1.0&model_source=custom" \
    --header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
    --header 'Content-Type: application/json'

请求参数

参数

类型

传参方式

必选

说明

page_no

Number

query

页码,默认值为1。

page_size

Number

query

页大小,默认为50,最大值为100,最小值为1。

model_source

String

query

模型来源。base表示系统模型(默认),custom表示用户微调模型。

version

String

query

API 版本,推荐使用v1.0。使用v1.0时,响应中将包含完整的部署方案和模板信息。

响应示例

命令执行完成后,获得以下结果:

{
    "request_id": "f7da015c-ea90-4d96-af89-2f8d7604026a",
    "output": {
        "page_no": 1,
        "page_size": 100,
        "total": 5,
        "models": [
            {
                "model_name": "qwen3-8b",
                "plans": [
                    {
                        "plan": "mu",
                        "templates": [
                            {
                                "template_id": "MU1",
                                "template_name": "单机部署-标准推理型",
                                "template_type": "COUPLED",
                                "template_version": "v1",
                                "template_desc": "适用于标准推理场景",
                                "roles": {
                                    "unified": {
                                        "model_unit_spec": "MU1",
                                        "capacity_unit_per_instance": 4
                                    }
                                }
                            },
                            {
                                "template_id": "MU1-PD",
                                "template_name": "PD分离部署-标准推理型",
                                "template_type": "SEPERATED",
                                "template_version": "v1",
                                "template_desc": "适用于PD分离推理场景",
                                "roles": {
                                    "prefill": {
                                        "model_unit_spec": "MU1",
                                        "capacity_unit_per_instance": 4
                                    },
                                    "decode": {
                                        "model_unit_spec": "MU1",
                                        "capacity_unit_per_instance": 4
                                    }
                                }
                            }
                        ]
                    },
                    {
                        "plan": "lora"
                    }
                ]
            }
        ]
    }
}

响应参数

参数

类型

说明

models

Array

可部署模型列表。

models[].model_name

String

模型名称。

models[].plans

Array

该模型支持的部署方案列表。使用version=v1.0时返回。

models[].plans[].plan

String

部署方案类型:mu(模型单元)、cu(算力单元)、ptu(预置吞吐量)、lora(LoRA共享部署)。

models[].plans[].templates

Array

部署模板列表(plan=mu时返回)。

page_no

Number

查询页码。

page_size

Number

查询页大小。

total

Long

满足查询条件的所有模型个数。

模板字段说明(templates)

参数

类型

说明

template_id

String

模板 ID,在创建模型部署任务时作为template_id参数传入。

template_name

String

模板显示名称。

template_type

String

模板类型:COUPLED(非 PD 分离,使用capacity参数)、SEPERATED(PD 分离,使用prefill_capacitydecode_capacity参数)。

template_version

String

模板版本。

template_desc

String

模板描述。

roles

Object

节点角色配置。COUPLED 模式包含unified节点,SEPERATED 模式包含prefilldecode节点。

roles 节点字段说明

参数

类型

说明

model_unit_spec

String

模型单元规格。

capacity_unit_per_instance

Number

单实例容量单元数,即 base_capacity。创建部署时capacity必须是该值的整数倍。

创建模型部署任务

地址

POST https://dashscope.aliyuncs.com/api/v1/deployments

请求示例

按预置吞吐(PTU)计费

说明

执行以下部署命令后,即便您还没有调用模型,模型部署服务仍将在部署成功后开始计费。建议您先确认服务计费规则,再执行部署命令。

image

curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "name": "my_qwen_flash",
    "model_name": "qwen-flash-2025-07-28",
    "plan": "ptu",
    "ptu_capacity": {
        "input_tpm": 10000,
	"output_tpm": 1000
    }
}'

按模型单元的使用时长计费

说明
  • 执行以下部署命令后,即便您还没有调用模型,模型部署服务仍将在部署成功后开始计费。建议您先确认服务计费规则,再执行部署命令。

  • 模型单元-后付费方式的算力资源先买到先得。如购买不成功会全额退款。

image

curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "name": "my_qwen_plus"  
    "model_name": "qwen-plus-2025-12-01",
    "plan": "mu",
    "deploy_spec": "MU1",
    "enable_thinking": true,
    "capacity": 4,
    "max_context_length": 10000,
    "rpm_limit": 500,
    "tpm_limit": 1000
}'

模型单元部署模式还支持以下更多设置:

配置内容

配置详情

配置模型推理模式

部分模型在以模型单元方式部署时,可配置推理模式、最长上下文等。

  • Instruct - 模型部署后以非思考模式进行推理。

  • Thinking - 模型部署后以思考模式进行推理。

最长上下文

部分模型的模型单元部署模式支持该设置。最长上下文长度基于模型类型。

服务限流

部分模型的模型单元部署模式支持该设置,可限制模型调用的 RPM、TPM。

如何在 API 设置上述内容,请参考:使用 API 创建模型部署任务

按模型 Token 使用量计费

image

curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{        
    "model_name": "qwen3-8b-ft-202511132025-0260",
    "plan": "lora",
    "capacity": 1,
    "name": "qwen3-8b-ft"
}'
capacity 参数设置无效,但必须填写。如需希望扩缩容,请前往百炼模型部署控制台填写表单申请。

按算力单元的使用时长收费(仅适用于图片生成、视频生成)

说明

执行以下部署命令后,即便您还没有调用模型,模型部署服务仍将在部署成功后开始计费。建议您先确认服务计费规则,再执行部署命令。

image

curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{        
    "model_name": "animate-anyone-detect",
    "capacity": 2,
    "plan": "cu",
    "name": "my_animate"
}'

请求参数

参数

类型

传参方式

必选

说明

model_name

String

body

待部署的模型名称,对应我的模型中的模型 ID。

plan

String

body

部署方案,支持以下计费模式:

计费方式

plan 设置

按模型单元计费

"plan": "mu"

按算力单元计费

"plan": "cu"

预置吞吐量

"plan": "ptu"

LoRA 共享部署(按 Token 用量计费)

"plan": "lora"

调优后的模型支持的部署方式可以在我的模型中快速查询到。

name

String

body

模型的控制台显示名称

deploy_spec

String

body

"plan": "mu"时,可填写该设置。

具体支持情况请参考:模型单元部署的功能支持情况

当设置"plan": "mu"时,该参数必须填写。样例:"deploy_spec": "MU1"

enable_thinking

Boolean

body

部分模型支持,可设置为truefalse

max_context_length

Number

body

部分模型支持。样例:"max_context_length": 131072

rpm_limit

Number

body

部分模型支持, requests per minute,每分钟请求数。

tpm_limit

Number

body

部分模型支持, token per minute,每分钟 Token 使用量。

ptu_capacity

Object

body

"plan": "ptu"时,可填写该设置。

具体支持情况请参考:PTU部署的功能支持情况

如果不填写该参数,将默认按照 10,000 input_tpm1,000 output_tpm 进行设置。

当设置"plan": "ptu"时,该参数才生效。

样例:"ptu_capacity": { "input_tpm": 10000, "output_tpm": 1000 }

ptu_capacity.input_tpm

Number

body

所有模型支持,input token pre-minute,部署的模型每分钟支持的最大输入 Token 量。

ptu_capacity.output_tpm

Number

body

所有模型支持,output token pre-minute,部署的模型每分钟支持的最大输出 Token 量。

ptu_capacity.thinking_output_tpm

Number

body

部分模型支持,thinking output token pre-minute,部署的模型每分钟支持的预置思考最大输出 Token 量。

suffix

String

body

模型部署后,将生成新的模型名称,suffix 用于指定新模型名称的后缀,最大长度为8个字符且需全局唯一。每个模型在首次部署时,可以不指定后缀。如果需要对同一模型进行多次部署,则必须设置后缀以便于区分。

参考输出参数 deployed_model

支持的模型

点击这里查看支持情况与计费

按使用时长计费(预置吞吐)

费用 = 使用时长 × (输入 TPM 单价 × 输入 TPM + 输出 TPM 单价 × 输出 TPM)

  • 预付费订单支付后实时生效,有效期 N 天至第 N 天 23:59 结束。若在 22:00 后下单,到期日将自动顺延1天。

  • 预付费订单到期后,将延后2小时停止服务,停止后资源保留14小时后释放。

  • 预付费订单无法提前终止服务。

  • 后付费时,如果账户欠费,部署的资源将保留并继续计费 24 小时,之后自动释放资源。

当模型输入超过最长输入 Token 或 超出购买的 TPM 量时,相关调用将自动切换为当前模型的按量付费模式。此时,推理性能可能下降,限流将受业务空间中当前快照模型的公共流量的管控,费用按模型调用(按量付费)标准计收。

  • 此时,调用 API 返回 Header 将包含:x-dashscope-ptu-overflow:true

  • TPM 统计请前往:模型监控(北京)

模型名称

模型类型

最长输入 Token限制

后付费-按小时

预付费-按天

输入(Per 10k TPM)

输出(Per 1k TPM)

输入(Per 10k TPM)

输出(Per 1k TPM)

千问3.6-Plus-2026-04-02

Thinking

128,000

¥4.8

¥2.88

¥57.6

¥34.56

千问3-max-2025-09-23

Instruct

128,000

¥7.68

¥3.08

¥92.16

¥36.96

千问-plus-2025-12-01

Instruct

¥1.92

¥0.48

¥23.04

¥5.76

Thinking

¥1.92

¥23.04

千问-flash-2025-07-28

Instruct/Thinking

¥0.36

¥0.36

¥4.32

¥4.32

千问3-vl-plus-2025-09-23

Instruct/Thinking

¥2.40

¥2.40

¥28.80

¥28.80

DeepSeek-v3.2

Instruct/Thinking

64,000

¥7.20

¥1.08

¥86.40

¥12.96

模型类型:

  • Instruct - 模型部署后以非思考模式进行推理。

  • Thinking - 模型部署后以思考模式进行推理。

按使用时长计费(模型单元)

费用 = 使用时长(小时)× 模型单元数量 × 模型单元单价

  • 预付费购买的首月,如在首月内提前退订,日单价将按 1.2 倍计费

说明

模型单元-后付费方式的算力资源先买到先得。如购买不成功会全额退款。

千问

模型名称

模型类型

支持限流

模型单元规格

后付费-按小时

(不满 1 分钟按 1 分钟计费)

预付费-按天

(不满 1 天按 1 天计费)

千问3.5-Plus-2026-02-15

Instruct

支持

III 型模型单元(MU3)

¥1,048/小时

PD分离模式:¥2,096/小时

¥504,000/月

PD 分离模式:¥1,008,000/月

Qwen2.5-14B-Instruct

Instruct

支持

MU1

¥96/小时

¥46,000/月

GLM-5

Instruct

支持

III 型模型单元(MU3)

¥1,048/小时

PD分离模式:¥2,096/小时

¥504,000/月

PD 分离模式:¥1,008,000/月

千问3.5-397B-A17B

Instruct

支持

III 型模型单元(MU3)

¥1,048/小时

PD分离模式:¥2,096/小时

¥504,000/月

PD 分离模式:¥1,008,000/月

千问3-Max-2025-09-23

Instruct

支持

II 型 / III 型模型单元

(MU2/MU3)

II 型模型单元:¥448/小时

III 型模型单元:¥1,048/小时

II 型模型单元:¥216,000/月

III 型模型单元:¥504,000/月

DeepSeek-v3.2

Instruct

支持

II 型模型单元(MU2)

¥448/小时

PD分离模式:¥896/小时

¥216,000/月

PD 分离模式:¥432,000/月

千问3-235B-A22B-Instruct-2507

Instruct

支持

I / II 型模型单元

(MU1/MU2)

I 型模型单元:¥192/小时

II 型模型单元:¥448/小时

I 型模型单元:¥92,000/月

II 型模型单元:¥216,000/月

千问-Plus-2025-12-01

Instruct/Thinking

支持

I 型模型单元(MU1)

¥192/小时

¥92,000/月

千问-Plus-2025-07-28

Instruct/Thinking

支持

千问-Flash-2025-07-28

Instruct/Thinking

支持

千问2.5-开源版-72B

Instruct

支持

千问2.5-开源版-32B

Instruct

支持

千问3-32B

Instruct

支持

千问3.5-9B

Instruct

支持

I 型模型单元(MU1)

¥96/小时

¥46,000/月

千问3.5-27B

Instruct

支持

千问3-Next-80B-A3B-Instruct

Instruct

支持

qwen3.5-122b-a10b

Thinking

支持

MU1

¥192/小时

¥92,000/月

千问3-4B

Instruct

支持

V / I 型模型单元

(MU5/MU1)

V 型模型单元:¥20/小时

I 型模型单元:¥96/小时

V 型模型单元:¥9,500/月

I 型模型单元:¥46,000/月

千问3-1.7B

Instruct

支持

V / I 型模型单元

(MU5/MU1)

V 型模型单元:¥20/小时

I 型模型单元:¥96/小时

V 型模型单元:¥9,500/月

I 型模型单元:¥46,000/月

Text Embedding V4

Embedding

支持

V 型模型单元(MU5)

¥20/小时

¥9,500/月

千问2.5-开源版-3B

Instruct

支持

千问3-Rerank

Rerank

支持

千问3-MoE-Rerank-0.6B

Rerank

支持

千问3-Rerank-0.6B

Rerank

支持

V / VI 型模型单元

(MU5/MU6)

V 型模型单元:¥20/小时

VI 型模型单元:¥18/小时

V 型模型单元:¥9,500/月

VI 型模型单元:¥8,700/月

千问3-Embedding-0.6B

Embedding

支持

VI / V 型模型单元

(MU6/MU5)

VI 型模型单元:¥18/小时

V 型模型单元:¥20/小时

VI 型模型单元:¥8,700/月

V 型模型单元:¥9,500/月

模型类型:

  • Instruct - 模型部署后以非思考模式进行推理。

  • Thinking - 模型部署后以思考模式进行推理。

模型部署类型:

  • PD 分离模式 - 降低首 Token 延迟、提高吞吐。

    该部署模式部署的模型在进行模型推理时,将首 Token 计算(Prefill)和后续 Token 计算(Decode)两个计算阶段,拆到不同的计算节点执行。

千问VL

模型服务

模型类型

支持限流

模型单元规格

单价

(不满 1 分钟按 1 分钟计费)

包月单价

(不满 1 天按 1 天计费)

(如在首月内提前退订,日单价将按 1.2 倍计费)

千问VL-Max-2025-08-13

Instruct

支持

VI 型模型单元(MU6)

¥72/小时

¥34,800/月

千问VL-OCR-2025-11-20

Instruct

支持

VI 型模型单元(MU6)

千问3-VL-8B-Instruct

Instruct

支持

I 型模型单元(MU1)

¥96/小时

¥46,000/月

千问3-VL-4B-Instruct

Instruct

支持

千问3-VL-Flash-2025-10-15

Instruct/Thinking

支持

I 型模型单元(MU1)

¥192/小时

¥92,000/月

千问3-VL-Plus-2025-09-23

Instruct/Thinking

支持

千问3-VL-235B-A22B-Instruct

Instruct

支持

千问3-VL-32B-Instruct

Instruct

支持

千问3-VL-Embedding-2B

Embedding

支持

V 型模型单元(MU5)

¥20/小时

¥9,500/月

模型类型:

  • Instruct - 模型部署后以非思考模式进行推理。

  • Thinking - 模型部署后以思考模式进行推理。

  • Instruct/Thinking - 可在模型部署时选择是否开启思考模式

按模型 Token 使用量

费用 = 模型输入 Token 数 × 模型输入单价 + 模型输出 Token 数 × 模型输出单价(最小计费单位:1 token)

  • 仅当对下列基础模型完成 SFT 高效训练并得到自定义模型后,才支持按模型 Token 使用量计费。

基础模型

模型类型

最长上下文

输入单价

输出单价

千问3-32B

Instruct

固定为: 131,072

¥0.002/千Token

非思考模式:¥0.008/千Token

思考模式:¥0.02/千Token

千问3-14B

Instruct

¥0.001/千Token

非思考模式:¥0.004/千Token

思考模式:¥0.01/千Token

千问3-8B

Instruct

¥0.0005/千Token

非思考模式:¥0.002/千Token

思考模式:¥0.005/千Token

千问3-VL-8B-Instruct

Instruct

固定为: 131,072

¥0.0005/千 Token

¥0.002/千 Token

千问 2.5-72B

Instruct

固定为: 131,072

¥0.004/千Token

¥0.012/千Token

千问 2.5-32B

Instruct

¥0.002/千Token

¥0.006/千Token

千问 2.5-14B

Instruct

¥0.001/千Token

¥0.003/千Token

千问 2.5-7B

Instruct

¥0.0005/千Token

¥0.001/千Token

千问2.5-VL-72B

Instruct

固定为: 131,072

¥0.016/千Token

¥0.048/千Token

千问2.5-VL-32B

Instruct

¥0.008/千Token

¥0.024/千Token

千问2.5-VL-7B

Instruct

¥0.002/千Token

¥0.005/千Token

千问 2-开源版-7B

Instruct

固定为: 131,072

¥0.001/千Token

¥0.002/千Token

图片、视频生成模型(预置)-按实例时长计费

费用 = 资源占用时长(小时)× 实例数量 × 实例单价(不满 1 小时按 1 小时计费)

图片生成

模型服务

模型类型

独占实例资源规格

后付费单价

预付费单价

(预付费)

万相-文本生成图像-0521

预置模型

轻量版

¥20/实例/小时

¥10,000/月

视频生成

模型服务

模型类型

独占实例资源规格

后付费单价

预付费单价

(预付费)

悦动人像EMO-detect

预置模型

轻量版

¥20/实例/小时

¥10,000/月

悦动人像EMO

舞动人像AnimateAnyone-detect

舞动人像AnimateAnyone

响应示例

命令执行完成后,返回如下结果:

{
  "request_id": "f2ae64f7-83cc-410c-bc0b-840443f7eb86",
  "output": {
    "deployed_model": "emo-35b3f106-sample01",
    "gmt_create": "2025-06-17T11:00:38.68",
    "gmt_modified": "2025-06-17T11:00:38.68",
    "status": "PENDING",
    "model_name": "emo",
    "base_model": "emo",
    "base_capacity": 1,
    "capacity": 1,
    "ready_capacity": 0,
    "workspace_id": "llm-v71tlv3d***",
    "charge_type": "post_paid",
    "creator": "175805416***",
    "modifier": "175805416***"
  }
}

响应参数

参数

类型

说明

request_id

String

本次请求的ID。

output

Object

本次部署任务的详细信息。

deployed_model

String

新模型的唯一标识。在发起模型调用请求时需要在SDK参数传入。

gmt_create

String

创建部署任务的时间。

gmt_modified

String

修改部署任务的时间。

status

String

部署任务的状态。

  • PENDING:正在创建部署任务。

  • UPDATING:正在更新部署任务。

  • RUNNING:部署任务正在运行,此时已部署的模型可以正常处理请求。

  • STOPPED:部署任务已经停止,此时的部署任务不会被计费。

  • DELETING:正在删除部署任务。

  • FAILED:部署任务创建或更新失败。

model_name

String

部署任务使用的模型名称。

base_model

String

部署任务使用的模型对应的基础模型ID。

base_capacity

Number

基础模型运行所需的最小资源单元数量。

capacity

Number

部署任务使用的资源单元数量。

ready_capacity

Number

已就绪并可立即处理请求的资源单元数量。受限于资源初始化速度或硬件状态。

workspace_id

String

部署任务所属的业务空间ID。

charge_type

String

部署任务的扣费方法。

post_paid:后付费。

creator

String

该部署任务创建人UID。

modifier

String

对该部署任务进行最后一次操作的账号UID。

plan

String

部署任务的计费模式。(部分模式不显示该参数)

模型单元部署方式响应

model_unit_spec

String

模型单元规格。

enable_thinking

Boolean

是否开启思考模式,部分模型支持。

max_context_length

Number

最大上下文长度限制。

rpm_limit

String

Requests per minute,每分钟请求数。

tpm_limit

Number

Token per minute,每分钟 Token 使用量。

仅预置吞吐量(ptu)部署方式响应

ptu_capacity

Object

当设置"plan": "ptu"时,该参数才生效。

样例:"ptu_capacity": { "input_tpm": 10000, "output_tpm": 1000 }

ptu_capacity.input_tpm

Number

所有模型支持,input token pre-minute,部署的模型每分钟支持的最大输入 Token 量。

ptu_capacity.output_tpm

Number

所有模型支持,output token pre-minute,部署的模型每分钟支持的最大输出 Token 量。

ptu_capacity.thinking_output_tpm

Number

部分模型支持,thinking output token pre-minute,部署的模型每分钟支持的预置思考最大输出 Token 量。

修改部署的模型设置

说明

仅模型单元部署方式的部分模型支持修改设置 rpm 和 tpm。

地址

PUT https://dashscope.aliyuncs.com/api/v1/deployments/{deployed_model}/update

请求示例

通过以下命令可以查询指定专属服务的详细信息:

curl -X PUT "https://dashscope.aliyuncs.com/api/v1/deployments/{deployed_model}/update" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "rpm_limit": 1000,
    "tpm_limit": 200
}'

请求参数

参数

类型

传参方式

必选

说明

deployed_model

String

path

新模型的唯一标识。

rpm_limit

Number

body

至少填写一个参数

Requests per minute,每分钟请求数。

tpm_limit

Number

body

Token per minute,每分钟 Token 使用量。

响应示例

命令执行完成后,返回如下结果:

{
    "request_id": "1d121fd9-876c-40ad-bc40-a9e68ef3b986",
    "output":
    {
        "deployed_model": "qwen-plus-2025-12-01-b6d61c71",
        "gmt_create": "2026-01-07T13:52:44",
        "gmt_modified": "2026-01-07T14:01:41",
        "status": "PENDING",
        "model_name": "qwen-plus-2025-12-01",
        "base_model": "qwen-plus-2025-12-01",
        "base_capacity": 4,
        "capacity": 4,
        "ready_capacity": 0,
        "workspace_id": "llm-8v53e*******",
        "charge_type": "post_paid",
        "creator": "16542902******",
        "modifier": "16542902********",
        "plan": "mu",
        "model_unit_spec": "MU1",
        "enable_thinking": true,
        "max_context_length": 1,
        "rpm_limit": 1000,
        "tpm_limit": 200
    }
}

响应参数

请参考创建模型部署任务的响应参数。

查询模型部署任务

地址

GET https://dashscope.aliyuncs.com/api/v1/deployments/{deployed_model}

请求示例

通过以下命令可以查询指定专属服务的详细信息:

curl "https://dashscope.aliyuncs.com/api/v1/deployments/qwen-plus-202305099980-fac9-sample" \
    --header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
    --header 'Content-Type: application/json' 

请求参数

参数

类型

传参方式

必选

说明

deployed_model

String

path

新模型的唯一标识。

响应示例

命令执行完成后,返回如下结果:

{
  "request_id": "66a855f0-a6fe-4b05-9786-fb30c7c6782d",
  "output": {
    "deployed_model": "emo-35b3f106-sample01",
    "gmt_create": "2025-06-17T11:00:38",
    "gmt_modified": "2025-06-17T11:06:13",
    "status": "RUNNING",
    "model_name": "emo",
    "base_model": "emo",
    "base_capacity": 1,
    "capacity": 1,
    "ready_capacity": 1,
    "workspace_id": "llm-v71tlv3***",
    "charge_type": "post_paid",
    "creator": "175805416***",
    "modifier": "175805416***"
  }
}

响应参数

请参考创建模型部署任务的响应参数。

列举模型部署任务

地址

GET https://dashscope.aliyuncs.com/api/v1/deployments

请求示例

通过以下命令可以获取专属服务列表:

curl "https://dashscope.aliyuncs.com/api/v1/deployments?page_no=1&page_size=100" \
    --header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
    --header 'Content-Type: application/json' 

请求参数

参数

类型

传参方式

必选

说明

page_no

Number

query

页码,默认值为1。

page_size

Number

query

页大小,默认为50,最大值为200,最小值为1。

响应示例

命令执行完成后,返回以下结果:

{
  "request_id": "7efdd3a7-a90d-96c6-b477-70055d59edf7",
  "output": {
    "page_no": 1,
    "page_size": 10,
    "total": 1,
    "deployments": [
      {
        "deployed_model": "emo-35b3f106-sample01",
        "gmt_create": "2025-06-17T11:00:38",
        "gmt_modified": "2025-06-17T11:06:13",
        "status": "RUNNING",
        "model_name": "emo",
        "base_model": "emo",
        "base_capacity": 1,
        "capacity": 1,
        "ready_capacity": 1,
        "workspace_id": "llm-v71tlv3d***",
        "charge_type": "post_paid",
        "creator": "175805416***",
        "modifier": "175805416***"
      }
    ]
  }
}

响应参数

请参考创建模型部署任务的响应参数。

更新模型部署任务

通过更新操作调整专属服务使用的资源单元数量。

地址

PUT https://dashscope.aliyuncs.com/api/v1/deployments/{deployed_model}/scale

请求示例

通过以下命令可以将指定的服务进行扩缩容:

curl --request PUT "https://dashscope.aliyuncs.com/api/v1/deployments/emo-35b3f106-sample01/scale" \
    --header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
    --header 'Content-Type: application/json' \
    --data '{    
                "capacity":2
            }'

请求参数

参数

类型

传参方式

必选

说明

deployed_model

String

path

新模型的唯一标识。

capacity

Number

body

条件必选

"plan": "mu"时,可填写该设置。

具体支持情况请参考:模型单元部署的功能支持情况

更新之后,模型所使用的资源单元。必须base_capacity的整数倍。

ptu_capacity

Object

body

条件必选

"plan": "ptu"时,可填写该设置。

具体支持情况请参考:PTU部署的功能支持情况

当设置"plan": "ptu"时,该参数才生效。

样例:"ptu_capacity": { "input_tpm": 10000, "output_tpm": 1000 }

ptu_capacity.input_tpm

Number

body

所有模型支持,input token pre-minute,部署的模型每分钟支持的最大输入 Token 量。

ptu_capacity.output_tpm

Number

body

所有模型支持,output token pre-minute,部署的模型每分钟支持的最大输出 Token 量。

ptu_capacity.thinking_output_tpm

Number

body

部分模型支持,thinking output token pre-minute,部署的模型每分钟支持的预置思考最大输出 Token 量。

响应示例

命令执行完成后,返回以下结果:

{
  "request_id": "6c6b7676-3fea-423b-bc26-c9e2337e1142",
  "output": {
    "deployed_model": "emo-35b3f106-sample01",
    "gmt_create": "2025-06-17T11:00:38",
    "gmt_modified": "2025-06-17T11:42:02.311",
    "status": "UPDATING",
    "model_name": "emo",
    "base_model": "emo",
    "base_capacity": 1,
    "capacity": 2,
    "ready_capacity": 1,
    "workspace_id": "llm-v71tlv3dezezp2en",
    "charge_type": "post_paid",
    "creator": "17580541***",
    "modifier": "17580541***"
  }
}

响应参数

请参考创建模型部署任务的响应参数。

删除模型部署任务

地址

DELETE https://dashscope.aliyuncs.com/api/v1/deployments/{deployed_model}

请求示例

通过以下命令可以删除指定的部署任务。

curl --request DELETE "https://dashscope.aliyuncs.com/api/v1/deployments/emo-35b3f106-sample01" \
    --header "Authorization: Bearer ${DASHSCOPE_API_KEY}" \
    --header 'Content-Type: application/json' 

请求参数

参数

类型

传参方式

必选

说明

deployed_model

String

path

新模型的唯一标识。

响应示例

命令执行完成后,返回以下结果:

{
  "request_id": "5378b78b-8564-481f-a3e0-580e551df22c",
  "output": {
    "deployed_model": "emo-35b3f106-sample01",
    "gmt_create": "2025-06-17T11:00:38",
    "gmt_modified": "2025-06-17T11:42:02",
    "status": "DELETING",
    "model_name": "emo",
    "base_model": "emo",
    "base_capacity": 1,
    "capacity": 2,
    "ready_capacity": 1,
    "workspace_id": "llm-v71tlv3***",
    "charge_type": "post_paid",
    "creator": "175805416***",
    "modifier": "175805416***"
  }
}

响应参数

请参考创建模型部署任务的响应参数。

异常响应

响应示例

{
    "request_id": "ca218d57-b91b-46b2-bd35-c41c6287bcf4",
    "message": "Model: qwen-plus-20230703-cx7f not found!",
    "code": "NotFound"
}

响应参数

字段

类型

描述

request_id

String

本次请求的系统唯一码。

code

String

错误码。

message

String

错误信息。

当请求出错时,可能返回以下错误:

错误码

错误信息

错误原因

NotFound

Model: xxx not found!

  • 创建部署任务时指定了不存在的模型。

  • 查询/更新/删除部署任务时指定了不存在的模型。

Conflict

Deployed model xxx already exists, please specify a suffix.

创建部署任务时使用了已使用过的suffix。

InvalidParameter

Invalid capacity (xx), capacity must be larger than or equal to 0 and multiples of 1 and less than 1000!

创建/更新部署任务时指定了无效的算力单元数量。