创建部署

更新时间:
复制为 MD 格式

创建一个新的模型部署任务。

前提条件

创建模型部署任务

地址

POST https://dashscope.aliyuncs.com/api/v1/deployments

请求示例

按预置吞吐(PTU)计费

说明

执行以下部署命令后,即便您还没有调用模型,模型部署服务仍将在部署成功后开始计费。建议您先确认服务计费规则,再执行部署命令。

按预置吞吐计费模式按预置吞吐的使用时长收费,适用于追求稳定吞吐保障和高并发低延迟、且流量可预估的场景。该模式下,吞吐/并发生成速度均为平台预置,用户不可调。

curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "name": "my_qwen_flash",
    "model_name": "qwen-flash-2025-07-28",
    "plan": "ptu",
    "ptu_capacity": {
        "input_tpm": 10000,
	"output_tpm": 1000
    }
}'

按模型单元的使用时长计费

说明
  • 执行以下部署命令后,即便您还没有调用模型,模型部署服务仍将在部署成功后开始计费。建议您先确认服务计费规则,再执行部署命令。

  • 模型单元-后付费方式的算力资源先买到先得。如购买不成功会全额退款。

选择按模型单元计费计费方式,计费模式为按模型单元的使用时长收费,适用场景为模型调优后的大规模推理业务,资源专属,性能和成本灵活可调;吞吐/并发和生成速度均为客户自定义。

curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "name": "my_qwen_plus",
    "model_name": "qwen-plus-2025-12-01",
    "plan": "mu",
    "deploy_spec": "MU1",
    "enable_thinking": true,
    "capacity": 4,
    "max_context_length": 10000,
    "rpm_limit": 500,
    "tpm_limit": 1000
}'

模型单元部署模式还支持以下更多设置:

配置内容

配置详情

配置模型推理模式

部分模型在以模型单元方式部署时,可配置推理模式、最长上下文等。

  • Instruct - 模型部署后以非思考模式进行推理。

  • Thinking - 模型部署后以思考模式进行推理。

最长上下文

部分模型的模型单元部署模式支持该设置。最长上下文长度基于模型类型。

服务限流

部分模型的模型单元部署模式支持该设置,可限制模型调用的 RPM、TPM。

如何在 API 设置上述内容,请参考:使用 API 创建模型部署任务

按模型 Token 使用量计费

选择计费方式为Token计费,计费模式为按Token用量收费,适用于高性价比诉求且对并发和延迟要求不高的场景。该模式价格优势最高,吞吐/并发和生成速度均由平台预置,用户不可调。

curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model_name": "qwen3-8b-ft-202511132025-0260",
    "plan": "lora",
    "capacity": 1,
    "name": "qwen3-8b-ft"
}'
capacity 参数设置无效,但必须填写。如需希望扩缩容,请前往百炼模型部署控制台填写表单申请。

请求参数

参数

类型

传参方式

必选

说明

model_name

String

body

待部署的模型名称,对应我的模型中的模型 ID。也可通过创建训练任务创建导入任务接口的输出获取。

plan

String

body

部署方案,支持以下计费模式:

计费方式

plan 设置

按模型单元计费

"plan": "mu"

按算力单元计费

"plan": "cu"

预置吞吐量

"plan": "ptu"

LoRA 共享部署(按 Token 用量计费)

"plan": "lora"

调优后的模型支持的部署方式可以在我的模型中快速查询到。

说明

CosyVoice 系列调优模型当前仅支持"plan": "mu"

name

String

body

模型的控制台显示名称

capacity

Integer

body

"plan": "mu"时必填,部署使用的资源单元数量,需为base_capacity的整数倍。不同deploy_spec的取值约束不同,例如MU2必须为 8 的倍数,MU5可填 1。样例:"capacity": 1

说明

CosyVoice 系列模型当前提供以下两种部署模板,对应的capacity取值约束:

  • 单机部署:capacity须为 1 的整数倍,如 1、2、3、4、5。

  • 单机部署-旗舰级复杂推理版:capacity须为 8 的整数倍,如 8、16、24、32。

billing_method

String

body

"plan": "mu"时必填,计费方式。当前支持"POST_PAY"(后付费)。样例:"billing_method": "POST_PAY"

deploy_spec

String

body

"plan": "mu"时,可填写该设置。

具体支持情况请参考:模型单元部署的功能支持情况

当设置"plan": "mu"时,该参数必须填写。样例:"deploy_spec": "MU1"

说明

可通过获取可以部署的模型列表接口返回的 template_id 字段获取。

enable_thinking

Boolean

body

部分模型支持,可设置为truefalse

max_context_length

Number

body

部分模型支持。样例:"max_context_length": 131072

rpm_limit

Number

body

部分模型支持, requests per minute,每分钟请求数。

tpm_limit

Number

body

部分模型支持, token per minute,每分钟 Token 使用量。

ptu_capacity

Object

body

"plan": "ptu"时,可填写该设置。

具体支持情况请参考:PTU部署的功能支持情况

如果不填写该参数,将默认按照 10,000 input_tpm1,000 output_tpm 进行设置。

当设置"plan": "ptu"时,该参数才生效。

样例:"ptu_capacity": { "input_tpm": 10000, "output_tpm": 1000 }

ptu_capacity.input_tpm

Number

body

所有模型支持,input token pre-minute,部署的模型每分钟支持的最大输入 Token 量。

ptu_capacity.output_tpm

Number

body

所有模型支持,output token pre-minute,部署的模型每分钟支持的最大输出 Token 量。

ptu_capacity.thinking_output_tpm

Number

body

部分模型支持,thinking output token pre-minute,部署的模型每分钟支持的预置思考最大输出 Token 量。

suffix

String

body

模型部署后,将生成新的模型名称,suffix 用于指定新模型名称的后缀,最大长度为8个字符且需全局唯一。每个模型在首次部署时,可以不指定后缀。如果需要对同一模型进行多次部署,则必须设置后缀以便于区分。

参考输出参数 deployed_model

aigc_config

Object

body

视频生成 LoRA 模型的提示词配置。仅适用于万相视频生成模型(wan 系列),wan2.7-image-pro 不支持此参数。包含以下子字段:

  • use_input_prompt (Boolean, 必填):是否使用调用方传入的 Prompt。false=使用下方预设模板,true=使用推理 API 传入的 Prompt。默认 false。

  • prompt (String, 必填):预设 Prompt 模板。仅在 use_input_prompt=false 时生效,将覆盖推理 API 传入的 prompt。

  • lora_prompt_default (String, 必填):兜底 Prompt 模板。当 prompt 字段配置失效时使用的回退模板。

关于 aigc_config.prompt 参数说明

  • 为什么要设置这个参数?

    如果不设置此参数,每次调用模型都需要手动编写完整 Prompt;设置后,调用微调模型时只需上传图片,系统会根据此参数自动补全特效指令,无需手动输入 Prompt。

  • 如何设置?

    Prompt = 任务指令(告诉模型要做什么)+ 输出模板(规范输出格式)+ 示例(让模型学习示例结构)。

    根据图像内容提供视频描述,描述必须包含"然后开始展示s86b5p金钱雨特效,无数巨大尺寸的美元钞票(米黄底/深绿图案)如暴雨般倾泻而下,密集地砸向并环绕她(他)。钞票持续落下,同时镜头缓缓拉进,她(他)双臂舒展上扬,脖颈微仰,表情惊喜,完全沉浸在这场狂野的金钱雨中"。
    输出模版:
    视频开头展示了[主体描述]。[环境描述]。然后开始展示s86b5p金钱雨特效,无数巨大尺寸的美元钞票(米黄底/深绿图案)如暴雨般倾泻而下,密集地砸向并环绕她(他)。钞票持续落下,同时镜头缓缓拉进,她(他)双臂舒展上扬,脖颈微仰,表情惊喜,完全沉浸在这场狂野的金钱雨中。
    示例:
    视频开头展示了一位年轻女性在海滩上的场景。她的头发湿漉漉的,呈现出深棕色,卷曲且略显凌乱。她的脸上带着灿烂的笑容。背景是波涛汹涌的海浪和远处的山脉。然后开始展示s86b5p金钱雨特效,无数巨大尺寸的美元钞票(米黄底/深绿图案)如暴雨般倾泻而下,密集地砸向并环绕她。钞票持续落下,同时镜头缓缓拉进,她双臂舒展上扬,脖颈微仰,表情惊喜,完全沉浸在这场狂野的金钱雨中。
    关于"输出模板"描述,请参见万相视频微调指南-输出模板说明

图生视频-基于首帧

请将 <替换为模型名称model_name> 替换为创建训练任务输出参数 finetuned_output 的值。

curl --location 'https://dashscope.aliyuncs.com/api/v1/deployments' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model_name": "<替换为模型名称model_name>",
    "aigc_config": {
        "use_input_prompt": false,
        "prompt": "根据图像内容提供视频描述,描述必须包含\"然后开始展示s86b5p金钱雨特效,无数巨大尺寸的美元钞票(米黄底/深绿图案)如暴雨般倾泻而下,密集地砸向并环绕她(他)。钞票持续落下,同时镜头缓缓拉进,她(他)双臂舒展上扬,脖颈微仰,表情惊喜,完全沉浸在这场狂野的金钱雨中\"。\n输出模板:\n视频开头展示了[主体描述]。[环境描述]。然后开始展示s86b5p金钱雨特效...\n示例:\n视频开头展示了一位年轻女性在海滩上的场景...",
        "lora_prompt_default": "然后开始展示s86b5p金钱雨特效,无数巨大尺寸的美元钞票(米黄底/深绿图案)如暴雨般倾泻而下,密集地砸向并环绕主角。钞票持续落下,同时镜头缓缓拉进,主角双臂舒展上扬,脖颈微仰,表情惊喜,完全沉浸在这场狂野的金钱雨中。"
    },
    "capacity": 1,
    "plan": "lora"
}'

图生视频-基于首尾帧

curl --location 'https://dashscope.aliyuncs.com/api/v1/deployments' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model_name": "<替换为模型名称model_name>",
    "aigc_config": {
        "use_input_prompt": false,
        "prompt": "根据图像内容提供视频描述,描述必须包含\"然后她开始了s86b5p变身。\"\n输出模板:\n视频开头展示了[主体描述]。[环境描述]。然后她开始了s86b5p变身。\n示例:\n视频开头展示了一位年轻女性在户外的场景...",
        "lora_prompt_default": "然后她开始了s86b5p变身。"
    },
    "capacity": 1,
    "plan": "lora"
}'

图像生成

wan2.7-image-pro 部署时不支持 aigc_config 参数。

curl --location 'https://dashscope.aliyuncs.com/api/v1/deployments' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model_name": "<替换为模型名称model_name>",
    "capacity": 1,
    "plan": "lora"
}'

点击这里查看支持情况与计费

按使用时长计费(预置吞吐)

费用 = 使用时长 × (输入 TPM 单价 × 输入 TPM + 输出 TPM 单价 × 输出 TPM)

后付费按小时计算:使用时长单位为小时,单价取下表"持续 1 小时"列;预付费按天计算:使用时长单位为天,单价取下表"持续 1 天"列。

  • 预付费订单支付后实时生效,有效期 N 天至第 N 天 23:59 结束。若在 22:00 后下单,到期日将自动顺延1天。

  • 预付费订单到期后,将延后2小时停止服务,停止后资源保留14小时后释放。

  • 预付费订单无法提前终止服务。

  • 后付费时,如果账户欠费,部署的资源将保留并继续计费 24 小时,之后自动释放资源。

当模型输入超过最长输入 Token 或 超出购买的 TPM 量时,相关调用将自动切换为当前模型的按量付费模式。此时,推理性能可能下降,限流将受业务空间中当前快照模型的公共流量的管控,费用按模型调用(按量付费)标准计收。

  • 此时,调用 API 返回 Header 将包含:x-dashscope-ptu-overflow:true

  • TPM 统计请前往:模型监控(北京)

缩容场景(降配)的具体降费退费规则请参考:降配退款规则说明

千问

模型名称

模型代码

最长输入Token

后付费输入

Per 10K TPM/小时

后付费输出

Per 1K TPM/小时

预付费输入

Per 10K TPM/天

预付费输出

Per 1K TPM/天

千问3.7-Max-2026-05-20

qwen3.7-max-2026-05-20

128,000

¥28.8

¥8.64

¥345.6

¥103.68

千问3.6-Flash-2026-04-16

qwen3.6-flash-2026-04-16

128,000

¥2.88

¥1.73

¥34.56

¥20.74

千问3.6-Plus-2026-04-02

qwen3.6-plus-2026-04-02

128,000

¥4.8

¥2.88

¥57.6

¥34.56

千问3.5-Plus-2026-04-20

qwen3.5-plus-2026-04-20

128,000

¥1.92

¥1.15

¥23.04

¥13.82

千问3-Max-2025-09-23

qwen3-max-2025-09-23

128,000

¥7.68

¥3.08

¥92.16

¥36.96

千问-Flash-2025-07-28

qwen-flash-2025-07-28

128,000

¥0.36

¥0.36

¥4.32

¥4.32

千问-Plus-2025-12-01

qwen-plus-2025-12-01

128,000

¥1.92

非思考:¥0.48

思考:¥1.92

¥23.04

非思考:¥5.76

思考:¥23.04

DeepSeek

模型名称

模型代码

最长输入Token

后付费输入

Per 10K TPM/小时

后付费输出

Per 1K TPM/小时

预付费输入

Per 10K TPM/天

预付费输出

Per 1K TPM/天

DeepSeek-v4-Pro

deepseek-v4-pro

64,000

¥43.2

¥8.64

¥518.4

¥103.68

DeepSeek-v3.2

deepseek-v3.2

64,000

¥7.2

¥1.08

¥86.4

¥12.96

DeepSeek-v3

deepseek-v3

64,000

¥7.2

¥2.88

¥86.4

¥34.56

千问VL

模型名称

模型代码

最长输入Token

后付费输入

Per 10K TPM/小时

后付费输出

Per 1K TPM/小时

预付费输入

Per 10K TPM/天

预付费输出

Per 1K TPM/天

千问3-VL-Plus-2025-09-23

qwen3-vl-plus-2025-09-23

128,000

¥2.4

¥2.4

¥28.8

¥28.8

更多模型

模型名称

模型代码

最长输入Token

后付费输入

Per 10K TPM/小时

后付费输出

Per 1K TPM/小时

预付费输入

Per 10K TPM/天

预付费输出

Per 1K TPM/天

GLM-5.1

glm-5.1

64,000

¥21.6

¥8.64

¥259.2

¥103.68

按使用时长计费(模型单元)

费用 = 使用时长(小时)× 模型单元数量 × 模型单元单价

"模型单元单价"在后付费场景下取下表"小时单价"列;预付费按月计费时,公式改为 包月数 × 模型单元数量 × 月单价

  • 预付费购买的首月,如在首月内提前退订,日单价(≈ 月单价 / 30)将按 1.2 倍计费(不满一天按一天计费)

说明

模型单元-后付费方式的算力资源先买到先得。如购买不成功会全额退款。

文本生成
千问

模型名称

模型代码

模型单元规格

小时单价(元)

包月单价(元)

千问3.6-35B-A3B

qwen3.6-35b-a3b

MU8 x 1

¥47

¥22,400

MU9 x 1

¥51

¥24,600

千问3.6-27B

qwen3.6-27b

MU9 x 1

¥51

¥24,600

千问3.6-Flash-2026-04-16

qwen3.6-flash-2026-04-16

MU1 x 2

¥108

¥52,236

千问3.6-Plus-2026-04-02

qwen3.6-plus-2026-04-02

MU1 x 8

MU1 x 16(PD分离模式)

¥432

PD分离模式:¥864

¥208,944

PD分离模式:¥417,888

千问3.5-397B-A17B

qwen3.5-397b-a17b

MU2 x 8

¥504

¥240,288

MU3 x 8

MU3 x 16(PD分离模式)

¥1,096

PD分离模式:¥2,192

¥527,752

PD分离模式:¥1,055,504

MU6 x 16

¥400

¥193,424

千问3.5-122B-A10B

qwen3.5-122b-a10b

MU1 x 4

¥216

¥104,472

MU2 x 8

¥504

¥240,288

MU6 x 16

¥400

¥193,424

MU9 x 2

¥102

¥49,200

千问3.5-35B-A3B

qwen3.5-35b-a3b

MU1 x 2

¥108

¥52,236

MU2 x 8

¥504

¥240,288

MU8 x 1

¥47

¥22,400

MU9 x 1

¥51

¥24,600

千问3.5-27B

qwen3.5-27b

MU1 x 2

¥108

¥52,236

MU9 x 1

¥51

¥24,600

千问3.5-9B

qwen3.5-9b

MU1 x 2

¥108

¥52,236

MU8 x 1

¥47

¥22,400

MU9 x 1

¥51

¥24,600

千问3.5-Flash-2026-02-23

qwen3.5-flash-2026-02-23

MU1 x 2

¥108

¥52,236

千问3.5-Plus-2026-02-15

qwen3.5-plus-2026-02-15

MU1 x 16(PD分离模式)

PD分离模式:¥864

PD分离模式:¥417,888

MU3 x 8

MU3 x 16(PD分离模式)

¥1,096

PD分离模式:¥2,192

¥527,752

PD分离模式:¥1,055,504

千问3-235B-A22B-Instruct-2507

qwen3-235b-a22b-instruct-2507

MU1 x 4

¥216

¥104,472

MU2 x 8

¥504

¥240,288

千问3-Next-80B-A3B-Instruct

qwen3-next-80b-a3b-instruct

MU1 x 2

¥108

¥52,236

千问3-32B

qwen3-32b

MU1 x 4

¥216

¥104,472

MU6 x 4

¥100

¥48,356

千问3-30B-A3B

qwen3-30b-a3b

MU9 x 2

¥102

¥49,200

千问3-30B-A3B-Instruct-2507

qwen3-30b-a3b-instruct-2507

MU1 x 4

¥216

¥104,472

MU2 x 8

¥504

¥240,288

千问3-8B

qwen3-8b

MU1 x 2

¥108

¥52,236

MU2 x 2

¥126

¥60,072

MU5 x 1

¥21

¥10,139

千问3-4B

qwen3-4b

MU1 x 2

¥108

¥52,236

MU5 x 1

¥21

¥10,139

千问3-1.7B

qwen3-1.7b

MU1 x 2

¥108

¥52,236

MU5 x 1

¥21

¥10,139

千问3-Embedding-0.6B

qwen3-embedding-0.6b

MU5 x 1

¥21

¥10,139

MU6 x 1

¥25

¥12,089

千问3-MoE-Rerank-0.6B

qwen3-moe-rerank-0.6b

MU5 x 1

¥21

¥10,139

千问3-Rerank-0.6B

qwen3-rerank-0.6b

MU5 x 1

¥21

¥10,139

MU6 x 1

¥25

¥12,089

千问3-Max-2025-09-23

qwen3-max-2025-09-23

MU2 x 8

¥504

¥240,288

MU3 x 8

¥1,096

¥527,752

千问3-Rerank

qwen3-rerank

MU5 x 1

¥21

¥10,139

千问2.5-开源版-72B

qwen2.5-72b-instruct

MU1 x 4

¥216

¥104,472

千问2.5-开源版-32B

qwen2.5-32b-instruct

MU1 x 4

¥216

¥104,472

千问2.5-开源版-14B

qwen2.5-14b-instruct

MU1 x 2

¥108

¥52,236

千问2.5-开源版-7B

qwen2.5-7b-instruct

MU1 x 2

¥108

¥52,236

MU5 x 1

¥21

¥10,139

千问2.5-开源版-3B

qwen2.5-3b-instruct

MU5 x 1

¥21

¥10,139

千问-Flash-2025-07-28

qwen-flash-2025-07-28

MU1 x 4

¥216

¥104,472

千问-Plus-2025-07-28

qwen-plus-2025-07-28

MU1 x 4

MU1 x 16(PD分离模式)

¥216

PD分离模式:¥864

¥104,472

PD分离模式:¥417,888

千问-Plus-2025-12-01

qwen-plus-2025-12-01

MU1 x 4

¥216

¥104,472

GLM

模型名称

模型代码

模型单元规格

小时单价(元)

包月单价(元)

GLM-5

glm-5

MU3 x 16(PD分离模式)

PD分离模式:¥2,192

PD分离模式:¥1,055,504

GLM-4.7

glm-4.7

MU6 x 32(PD分离模式)

PD分离模式:¥800

PD分离模式:¥386,848

DeepSeek

模型名称

模型代码

模型单元规格

小时单价(元)

包月单价(元)

DeepSeek-v4-Flash

deepseek-v4-flash

MU1 x 8

¥432

¥208,944

DeepSeek-v3.2

deepseek-v3.2

MU2 x 16(PD分离模式)

PD分离模式:¥1,008

PD分离模式:¥480,576

更多模型

模型名称

模型代码

模型单元规格

小时单价(元)

包月单价(元)

MiniMax-M2.5

MiniMax-M2.5

MU1 x 16(PD分离模式)

PD分离模式:¥864

PD分离模式:¥417,888

Kimi-K2.5

kimi-k2.5

MU2 x 8

¥504

¥240,288

模型类型:

  • Instruct - 模型部署后以非思考模式进行推理。

  • Thinking - 模型部署后以思考模式进行推理。

模型部署类型:

  • PD 分离模式 - 降低首 Token 延迟、提高吞吐。

    该部署模式部署的模型在进行模型推理时,将首 Token 计算(Prefill)和后续 Token 计算(Decode)两个计算阶段,拆到不同的计算节点执行。

多模态
千问VL

模型名称

模型代码

模型单元规格

小时单价(元)

包月单价(元)

千问3-VL-235B-A22B-Instruct

qwen3-vl-235b-a22b-instruct

MU1 x 4

¥216

¥104,472

千问3-VL-235B-A22B-Thinking

qwen3-vl-235b-a22b-thinking

MU1 x 4

¥216

¥104,472

千问3-VL-32B-Instruct

qwen3-vl-32b-instruct

MU2 x 8

¥504

¥240,288

千问3-VL-8B-Instruct

qwen3-vl-8b-instruct

MU1 x 2

¥108

¥52,236

千问3-VL-4B-Instruct

qwen3-vl-4b-instruct

MU1 x 2

¥108

¥52,236

千问3-VL-2B-Instruct

qwen3-vl-2b-instruct

MU5 x 1

¥21

¥10,139

千问3-VL-Embedding-2B

qwen3-vl-embedding-2b

MU5 x 1

¥21

¥10,139

千问3-VL-Flash-2025-10-15

qwen3-vl-flash-2025-10-15

MU1 x 4

¥216

¥104,472

千问3-VL-Plus-2025-09-23

qwen3-vl-plus-2025-09-23

MU1 x 4

¥216

¥104,472

千问VL-Max-2025-08-13

qwen-vl-max-2025-08-13

MU6 x 4

¥100

¥48,356

千问VL-OCR-2025-11-20

qwen-vl-ocr-2025-11-20

MU6 x 4

¥100

¥48,356

千问 Omni

模型名称

模型代码

模型单元规格

小时单价(元)

包月单价(元)

千问3.5-Omni-Flash

qwen3.5-omni-flash

MU8 x 1

¥47

¥22,400

MU9 x 1

¥51

¥24,600

千问3.5-Omni-Plus

qwen3.5-omni-plus

MU9 x 8

¥408

¥196,800

模型类型:

  • Instruct - 模型部署后以非思考模式进行推理。

  • Thinking - 模型部署后以思考模式进行推理。

  • Instruct/Thinking - 可在模型部署时选择是否开启思考模式

语音合成

CosyVoice

模型名称

模型代码

模型单元规格

小时单价(元)

包月单价(元)

cosyvoice-v3-flash

cosyvoice-v3-flash

MU5

¥21

¥10,139

按模型 Token 使用量

费用 = 模型输入 Token 数 × 模型输入单价 + 模型输出 Token 数 × 模型输出单价(最小计费单位:1 token)

  • 仅当对下列基础模型完成 SFT 高效训练并得到自定义模型后,才支持按模型 Token 使用量计费。

千问

基础模型

模型代码

输入

元/千Token

输出

元/千Token

千问3-32B

qwen3-32b

¥0.002

非思考模式:¥0.008

思考模式:¥0.02

千问3-14B

qwen3-14b

¥0.001

非思考模式:¥0.004

思考模式:¥0.01

千问3-8B

qwen3-8b

¥0.0005

非思考模式:¥0.002

思考模式:¥0.005

千问2.5-开源版-72B

qwen2.5-72b-instruct

¥0.004

¥0.012

千问2.5-开源版-32B

qwen2.5-32b-instruct

¥0.002

¥0.006

千问2.5-开源版-14B

qwen2.5-14b-instruct

¥0.001

¥0.003

千问2.5-开源版-7B

qwen2.5-7b-instruct

¥0.0005

¥0.001

千问VL

基础模型

模型代码

输入

元/千Token

输出

元/千Token

千问3-VL-8B-Instruct

qwen3-vl-8b-instruct

¥0.0005

¥0.002

千问2.5-VL-72B

qwen2.5-vl-72b-instruct

¥0.016

¥0.048

千问2.5-VL-32B

qwen2.5-vl-32b-instruct

¥0.008

¥0.024

千问2.5-VL-7B

qwen2.5-vl-7b-instruct

¥0.002

¥0.005

响应示例

命令执行完成后,返回如下结果:

{
  "request_id": "f2ae64f7-83cc-410c-bc0b-840443f7eb86",
  "output": {
    "deployed_model": "emo-35b3f106-sample01",
    "gmt_create": "2025-06-17T11:00:38.68",
    "gmt_modified": "2025-06-17T11:00:38.68",
    "status": "PENDING",
    "model_name": "emo",
    "base_model": "emo",
    "base_capacity": 1,
    "capacity": 1,
    "ready_capacity": 0,
    "workspace_id": "llm-v71tlv3d***",
    "charge_type": "post_paid",
    "creator": "175805416***",
    "modifier": "175805416***"
  }
}

响应参数

参数

类型

说明

request_id

String

本次请求的ID。

output

Object

本次部署任务的详细信息。

deployed_model

String

新模型的唯一标识。可用于查询部署详情修改部署限流部署扩缩容删除部署等接口,也在发起模型调用请求时通过SDK参数传入。

gmt_create

String

创建部署任务的时间。

gmt_modified

String

修改部署任务的时间。

status

String

部署任务的状态。

  • PENDING:正在创建部署任务。

  • UPDATING:正在更新部署任务。

  • RUNNING:部署任务正在运行,此时已部署的模型可以正常处理请求。

  • STOPPED:部署任务已经停止,此时的部署任务不会被计费。

  • DELETING:正在删除部署任务。

  • FAILED:部署任务创建或更新失败。

model_name

String

部署任务使用的模型名称。

base_model

String

部署任务使用的模型对应的基础模型ID。

base_capacity

Number

基础模型运行所需的最小资源单元数量。

capacity

Number

部署任务使用的资源单元数量。

ready_capacity

Number

已就绪并可立即处理请求的资源单元数量。受限于资源初始化速度或硬件状态。

workspace_id

String

部署任务所属的业务空间ID。

charge_type

String

部署任务的扣费方法。

post_paid:后付费。

creator

String

该部署任务创建人UID。

modifier

String

对该部署任务进行最后一次操作的账号UID。

plan

String

部署任务的计费模式。(部分模式不显示该参数)

模型单元部署方式响应

model_unit_spec

String

模型单元规格。

enable_thinking

Boolean

是否开启思考模式,部分模型支持。

max_context_length

Number

最大上下文长度限制。

rpm_limit

String

Requests per minute,每分钟请求数。

tpm_limit

Number

Token per minute,每分钟 Token 使用量。

仅预置吞吐量(ptu)部署方式响应

ptu_capacity

Object

当设置"plan": "ptu"时,该参数才生效。

样例:"ptu_capacity": { "input_tpm": 10000, "output_tpm": 1000 }

ptu_capacity.input_tpm

Number

所有模型支持,input token pre-minute,部署的模型每分钟支持的最大输入 Token 量。

ptu_capacity.output_tpm

Number

所有模型支持,output token pre-minute,部署的模型每分钟支持的最大输出 Token 量。

ptu_capacity.thinking_output_tpm

Number

部分模型支持,thinking output token pre-minute,部署的模型每分钟支持的预置思考最大输出 Token 量。

异常响应

响应示例

{
    "request_id": "ca218d57-b91b-46b2-bd35-c41c6287bcf4",
    "message": "Model: qwen-plus-20230703-cx7f not found!",
    "code": "NotFound"
}

响应参数

字段

类型

描述

request_id

String

本次请求的系统唯一码。

code

String

错误码。

message

String

错误信息。

当请求出错时,可能返回以下错误:

错误码

错误信息

错误原因

NotFound

Model: xxx not found!

  • 创建部署任务时指定了不存在的模型。

  • 查询/更新/删除部署任务时指定了不存在的模型。

Conflict

Deployed model xxx already exists, please specify a suffix.

创建部署任务时使用了已使用过的suffix。

InvalidParameter

Invalid capacity (xx), capacity must be larger than or equal to 0 and multiples of 1 and less than 1000!

创建/更新部署任务时指定了无效的算力单元数量。

后续步骤

部署完成后(status 为 RUNNING),即可调用模型进行推理。视频生成模型的推理调用方式请参见调用模型生成视频调用模型生成图像