创建一个新的模型部署任务。
前提条件
-
您已经阅读了模型部署简介和使用 API 进行模型部署的相关内容,掌握了模型部署的使用方法,并熟悉了在阿里云百炼平台上进行模型部署的基本步骤。
-
已配置百炼的 API-KEY, 请参考获取API Key。
创建模型部署任务
地址
POST https://dashscope.aliyuncs.com/api/v1/deployments
请求示例
按预置吞吐(PTU)计费
执行以下部署命令后,即便您还没有调用模型,模型部署服务仍将在部署成功后开始计费。建议您先确认服务计费规则,再执行部署命令。
按预置吞吐计费模式按预置吞吐的使用时长收费,适用于追求稳定吞吐保障和高并发低延迟、且流量可预估的场景。该模式下,吞吐/并发和生成速度均为平台预置,用户不可调。
curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"name": "my_qwen_flash",
"model_name": "qwen-flash-2025-07-28",
"plan": "ptu",
"ptu_capacity": {
"input_tpm": 10000,
"output_tpm": 1000
}
}'按模型单元的使用时长计费
执行以下部署命令后,即便您还没有调用模型,模型部署服务仍将在部署成功后开始计费。建议您先确认服务计费规则,再执行部署命令。
模型单元-后付费方式的算力资源先买到先得。如购买不成功会全额退款。
选择按模型单元计费计费方式,计费模式为按模型单元的使用时长收费,适用场景为模型调优后的大规模推理业务,资源专属,性能和成本灵活可调;吞吐/并发和生成速度均为客户自定义。
curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"name": "my_qwen_plus",
"model_name": "qwen-plus-2025-12-01",
"plan": "mu",
"deploy_spec": "MU1",
"enable_thinking": true,
"capacity": 4,
"max_context_length": 10000,
"rpm_limit": 500,
"tpm_limit": 1000
}'模型单元部署模式还支持以下更多设置:
|
配置内容 |
配置详情 |
|
配置模型推理模式 |
部分模型在以模型单元方式部署时,可配置推理模式、最长上下文等。
|
|
最长上下文 |
部分模型的模型单元部署模式支持该设置。最长上下文长度基于模型类型。 |
|
服务限流 |
部分模型的模型单元部署模式支持该设置,可限制模型调用的 RPM、TPM。 |
如何在 API 设置上述内容,请参考:使用 API 创建模型部署任务。
按模型 Token 使用量计费
选择计费方式为按Token计费,计费模式为按Token用量收费,适用于高性价比诉求且对并发和延迟要求不高的场景。该模式价格优势最高,吞吐/并发和生成速度均由平台预置,用户不可调。
curl "https://dashscope.aliyuncs.com/api/v1/deployments" \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"model_name": "qwen3-8b-ft-202511132025-0260",
"plan": "lora",
"capacity": 1,
"name": "qwen3-8b-ft"
}'capacity 参数设置无效,但必须填写。如需希望扩缩容,请前往百炼模型部署控制台填写表单申请。
请求参数
|
参数 |
类型 |
传参方式 |
必选 |
说明 |
|||||||||||
|
model_name |
String |
body |
是 |
||||||||||||
|
plan |
String |
body |
是 |
部署方案,支持以下计费模式:
调优后的模型支持的部署方式可以在我的模型中快速查询到。 说明
CosyVoice 系列调优模型当前仅支持 |
|||||||||||
|
name |
String |
body |
是 |
模型的控制台显示名称 |
|||||||||||
|
capacity |
Integer |
body |
否 |
仅 说明
CosyVoice 系列模型当前提供以下两种部署模板,对应的
|
|||||||||||
|
billing_method |
String |
body |
否 |
仅 |
|||||||||||
|
deploy_spec |
String |
body |
否 |
仅 具体支持情况请参考:模型单元部署的功能支持情况。 |
当设置 说明
可通过获取可以部署的模型列表接口返回的 |
||||||||||
|
enable_thinking |
Boolean |
body |
否 |
部分模型支持,可设置为 |
|||||||||||
|
max_context_length |
Number |
body |
否 |
部分模型支持。样例: |
|||||||||||
|
rpm_limit |
Number |
body |
否 |
部分模型支持, requests per minute,每分钟请求数。 |
|||||||||||
|
tpm_limit |
Number |
body |
否 |
部分模型支持, token per minute,每分钟 Token 使用量。 |
|||||||||||
|
ptu_capacity |
Object |
body |
否 |
仅 具体支持情况请参考:PTU部署的功能支持情况。 如果不填写该参数,将默认按照 |
当设置 样例: |
||||||||||
|
ptu_capacity.input_tpm |
Number |
body |
否 |
所有模型支持,input token pre-minute,部署的模型每分钟支持的最大输入 Token 量。 |
|||||||||||
|
ptu_capacity.output_tpm |
Number |
body |
否 |
所有模型支持,output token pre-minute,部署的模型每分钟支持的最大输出 Token 量。 |
|||||||||||
|
ptu_capacity.thinking_output_tpm |
Number |
body |
否 |
部分模型支持,thinking output token pre-minute,部署的模型每分钟支持的预置思考最大输出 Token 量。 |
|||||||||||
|
suffix |
String |
body |
否 |
模型部署后,将生成新的模型名称,suffix 用于指定新模型名称的后缀,最大长度为8个字符且需全局唯一。每个模型在首次部署时,可以不指定后缀。如果需要对同一模型进行多次部署,则必须设置后缀以便于区分。 参考输出参数 deployed_model。 |
|||||||||||
|
aigc_config |
Object |
body |
否 |
视频生成 LoRA 模型的提示词配置。仅适用于万相视频生成模型(wan 系列),
|
|||||||||||
关于 aigc_config.prompt 参数说明
-
为什么要设置这个参数?
如果不设置此参数,每次调用模型都需要手动编写完整 Prompt;设置后,调用微调模型时只需上传图片,系统会根据此参数自动补全特效指令,无需手动输入 Prompt。
-
如何设置?
Prompt = 任务指令(告诉模型要做什么)+ 输出模板(规范输出格式)+ 示例(让模型学习示例结构)。
根据图像内容提供视频描述,描述必须包含"然后开始展示s86b5p金钱雨特效,无数巨大尺寸的美元钞票(米黄底/深绿图案)如暴雨般倾泻而下,密集地砸向并环绕她(他)。钞票持续落下,同时镜头缓缓拉进,她(他)双臂舒展上扬,脖颈微仰,表情惊喜,完全沉浸在这场狂野的金钱雨中"。 输出模版: 视频开头展示了[主体描述]。[环境描述]。然后开始展示s86b5p金钱雨特效,无数巨大尺寸的美元钞票(米黄底/深绿图案)如暴雨般倾泻而下,密集地砸向并环绕她(他)。钞票持续落下,同时镜头缓缓拉进,她(他)双臂舒展上扬,脖颈微仰,表情惊喜,完全沉浸在这场狂野的金钱雨中。 示例: 视频开头展示了一位年轻女性在海滩上的场景。她的头发湿漉漉的,呈现出深棕色,卷曲且略显凌乱。她的脸上带着灿烂的笑容。背景是波涛汹涌的海浪和远处的山脉。然后开始展示s86b5p金钱雨特效,无数巨大尺寸的美元钞票(米黄底/深绿图案)如暴雨般倾泻而下,密集地砸向并环绕她。钞票持续落下,同时镜头缓缓拉进,她双臂舒展上扬,脖颈微仰,表情惊喜,完全沉浸在这场狂野的金钱雨中。关于"输出模板"描述,请参见万相视频微调指南-输出模板说明。
图生视频-基于首帧
请将 <替换为模型名称model_name> 替换为创建训练任务输出参数 finetuned_output 的值。
curl --location 'https://dashscope.aliyuncs.com/api/v1/deployments' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"model_name": "<替换为模型名称model_name>",
"aigc_config": {
"use_input_prompt": false,
"prompt": "根据图像内容提供视频描述,描述必须包含\"然后开始展示s86b5p金钱雨特效,无数巨大尺寸的美元钞票(米黄底/深绿图案)如暴雨般倾泻而下,密集地砸向并环绕她(他)。钞票持续落下,同时镜头缓缓拉进,她(他)双臂舒展上扬,脖颈微仰,表情惊喜,完全沉浸在这场狂野的金钱雨中\"。\n输出模板:\n视频开头展示了[主体描述]。[环境描述]。然后开始展示s86b5p金钱雨特效...\n示例:\n视频开头展示了一位年轻女性在海滩上的场景...",
"lora_prompt_default": "然后开始展示s86b5p金钱雨特效,无数巨大尺寸的美元钞票(米黄底/深绿图案)如暴雨般倾泻而下,密集地砸向并环绕主角。钞票持续落下,同时镜头缓缓拉进,主角双臂舒展上扬,脖颈微仰,表情惊喜,完全沉浸在这场狂野的金钱雨中。"
},
"capacity": 1,
"plan": "lora"
}'
图生视频-基于首尾帧
curl --location 'https://dashscope.aliyuncs.com/api/v1/deployments' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"model_name": "<替换为模型名称model_name>",
"aigc_config": {
"use_input_prompt": false,
"prompt": "根据图像内容提供视频描述,描述必须包含\"然后她开始了s86b5p变身。\"\n输出模板:\n视频开头展示了[主体描述]。[环境描述]。然后她开始了s86b5p变身。\n示例:\n视频开头展示了一位年轻女性在户外的场景...",
"lora_prompt_default": "然后她开始了s86b5p变身。"
},
"capacity": 1,
"plan": "lora"
}'
图像生成
wan2.7-image-pro 部署时不支持 aigc_config 参数。
curl --location 'https://dashscope.aliyuncs.com/api/v1/deployments' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
"model_name": "<替换为模型名称model_name>",
"capacity": 1,
"plan": "lora"
}'
点击这里查看支持情况与计费
按使用时长计费(预置吞吐)
费用 = 使用时长 × (输入 TPM 单价 × 输入 TPM + 输出 TPM 单价 × 输出 TPM)
后付费按小时计算:使用时长单位为小时,单价取下表"持续 1 小时"列;预付费按天计算:使用时长单位为天,单价取下表"持续 1 天"列。
-
预付费订单支付后实时生效,有效期 N 天至第 N 天 23:59 结束。若在 22:00 后下单,到期日将自动顺延1天。
-
预付费订单到期后,将延后2小时停止服务,停止后资源保留14小时后释放。
-
预付费订单无法提前终止服务。
-
后付费时,如果账户欠费,部署的资源将保留并继续计费 24 小时,之后自动释放资源。
当模型输入超过最长输入 Token 或 超出购买的 TPM 量时,相关调用将自动切换为当前模型的按量付费模式。此时,推理性能可能下降,限流将受业务空间中当前快照模型的公共流量的管控,费用按模型调用(按量付费)标准计收。
-
此时,调用 API 返回 Header 将包含:
x-dashscope-ptu-overflow:true。 -
TPM 统计请前往:模型监控(北京)。
缩容场景(降配)的具体降费退费规则请参考:降配退款规则说明。
千问
|
模型名称 |
模型代码 |
最长输入Token |
后付费输入 Per 10K TPM/小时 |
后付费输出 Per 1K TPM/小时 |
预付费输入 Per 10K TPM/天 |
预付费输出 Per 1K TPM/天 |
|
千问3.7-Max-2026-05-20 |
qwen3.7-max-2026-05-20 |
128,000 |
¥28.8 |
¥8.64 |
¥345.6 |
¥103.68 |
|
千问3.6-Flash-2026-04-16 |
qwen3.6-flash-2026-04-16 |
128,000 |
¥2.88 |
¥1.73 |
¥34.56 |
¥20.74 |
|
千问3.6-Plus-2026-04-02 |
qwen3.6-plus-2026-04-02 |
128,000 |
¥4.8 |
¥2.88 |
¥57.6 |
¥34.56 |
|
千问3.5-Plus-2026-04-20 |
qwen3.5-plus-2026-04-20 |
128,000 |
¥1.92 |
¥1.15 |
¥23.04 |
¥13.82 |
|
千问3-Max-2025-09-23 |
qwen3-max-2025-09-23 |
128,000 |
¥7.68 |
¥3.08 |
¥92.16 |
¥36.96 |
|
千问-Flash-2025-07-28 |
qwen-flash-2025-07-28 |
128,000 |
¥0.36 |
¥0.36 |
¥4.32 |
¥4.32 |
|
千问-Plus-2025-12-01 |
qwen-plus-2025-12-01 |
128,000 |
¥1.92 |
非思考:¥0.48 思考:¥1.92 |
¥23.04 |
非思考:¥5.76 思考:¥23.04 |
DeepSeek
|
模型名称 |
模型代码 |
最长输入Token |
后付费输入 Per 10K TPM/小时 |
后付费输出 Per 1K TPM/小时 |
预付费输入 Per 10K TPM/天 |
预付费输出 Per 1K TPM/天 |
|
DeepSeek-v4-Pro |
deepseek-v4-pro |
64,000 |
¥43.2 |
¥8.64 |
¥518.4 |
¥103.68 |
|
DeepSeek-v3.2 |
deepseek-v3.2 |
64,000 |
¥7.2 |
¥1.08 |
¥86.4 |
¥12.96 |
|
DeepSeek-v3 |
deepseek-v3 |
64,000 |
¥7.2 |
¥2.88 |
¥86.4 |
¥34.56 |
千问VL
|
模型名称 |
模型代码 |
最长输入Token |
后付费输入 Per 10K TPM/小时 |
后付费输出 Per 1K TPM/小时 |
预付费输入 Per 10K TPM/天 |
预付费输出 Per 1K TPM/天 |
|
千问3-VL-Plus-2025-09-23 |
qwen3-vl-plus-2025-09-23 |
128,000 |
¥2.4 |
¥2.4 |
¥28.8 |
¥28.8 |
更多模型
|
模型名称 |
模型代码 |
最长输入Token |
后付费输入 Per 10K TPM/小时 |
后付费输出 Per 1K TPM/小时 |
预付费输入 Per 10K TPM/天 |
预付费输出 Per 1K TPM/天 |
|
GLM-5.1 |
glm-5.1 |
64,000 |
¥21.6 |
¥8.64 |
¥259.2 |
¥103.68 |
按使用时长计费(模型单元)
费用 = 使用时长(小时)× 模型单元数量 × 模型单元单价
"模型单元单价"在后付费场景下取下表"小时单价"列;预付费按月计费时,公式改为 包月数 × 模型单元数量 × 月单价。
-
预付费购买的首月,如在首月内提前退订,日单价(≈ 月单价 / 30)将按 1.2 倍计费(不满一天按一天计费)
模型单元-后付费方式的算力资源先买到先得。如购买不成功会全额退款。
文本生成
千问
|
模型名称 |
模型代码 |
模型单元规格 |
小时单价(元) |
包月单价(元) |
|
千问3.6-35B-A3B |
qwen3.6-35b-a3b |
MU8 x 1 |
¥47 |
¥22,400 |
|
MU9 x 1 |
¥51 |
¥24,600 |
||
|
千问3.6-27B |
qwen3.6-27b |
MU9 x 1 |
¥51 |
¥24,600 |
|
千问3.6-Flash-2026-04-16 |
qwen3.6-flash-2026-04-16 |
MU1 x 2 |
¥108 |
¥52,236 |
|
千问3.6-Plus-2026-04-02 |
qwen3.6-plus-2026-04-02 |
MU1 x 8 MU1 x 16(PD分离模式) |
¥432 PD分离模式:¥864 |
¥208,944 PD分离模式:¥417,888 |
|
千问3.5-397B-A17B |
qwen3.5-397b-a17b |
MU2 x 8 |
¥504 |
¥240,288 |
|
MU3 x 8 MU3 x 16(PD分离模式) |
¥1,096 PD分离模式:¥2,192 |
¥527,752 PD分离模式:¥1,055,504 |
||
|
MU6 x 16 |
¥400 |
¥193,424 |
||
|
千问3.5-122B-A10B |
qwen3.5-122b-a10b |
MU1 x 4 |
¥216 |
¥104,472 |
|
MU2 x 8 |
¥504 |
¥240,288 |
||
|
MU6 x 16 |
¥400 |
¥193,424 |
||
|
MU9 x 2 |
¥102 |
¥49,200 |
||
|
千问3.5-35B-A3B |
qwen3.5-35b-a3b |
MU1 x 2 |
¥108 |
¥52,236 |
|
MU2 x 8 |
¥504 |
¥240,288 |
||
|
MU8 x 1 |
¥47 |
¥22,400 |
||
|
MU9 x 1 |
¥51 |
¥24,600 |
||
|
千问3.5-27B |
qwen3.5-27b |
MU1 x 2 |
¥108 |
¥52,236 |
|
MU9 x 1 |
¥51 |
¥24,600 |
||
|
千问3.5-9B |
qwen3.5-9b |
MU1 x 2 |
¥108 |
¥52,236 |
|
MU8 x 1 |
¥47 |
¥22,400 |
||
|
MU9 x 1 |
¥51 |
¥24,600 |
||
|
千问3.5-Flash-2026-02-23 |
qwen3.5-flash-2026-02-23 |
MU1 x 2 |
¥108 |
¥52,236 |
|
千问3.5-Plus-2026-02-15 |
qwen3.5-plus-2026-02-15 |
MU1 x 16(PD分离模式) |
PD分离模式:¥864 |
PD分离模式:¥417,888 |
|
MU3 x 8 MU3 x 16(PD分离模式) |
¥1,096 PD分离模式:¥2,192 |
¥527,752 PD分离模式:¥1,055,504 |
||
|
千问3-235B-A22B-Instruct-2507 |
qwen3-235b-a22b-instruct-2507 |
MU1 x 4 |
¥216 |
¥104,472 |
|
MU2 x 8 |
¥504 |
¥240,288 |
||
|
千问3-Next-80B-A3B-Instruct |
qwen3-next-80b-a3b-instruct |
MU1 x 2 |
¥108 |
¥52,236 |
|
千问3-32B |
qwen3-32b |
MU1 x 4 |
¥216 |
¥104,472 |
|
MU6 x 4 |
¥100 |
¥48,356 |
||
|
千问3-30B-A3B |
qwen3-30b-a3b |
MU9 x 2 |
¥102 |
¥49,200 |
|
千问3-30B-A3B-Instruct-2507 |
qwen3-30b-a3b-instruct-2507 |
MU1 x 4 |
¥216 |
¥104,472 |
|
MU2 x 8 |
¥504 |
¥240,288 |
||
|
千问3-8B |
qwen3-8b |
MU1 x 2 |
¥108 |
¥52,236 |
|
MU2 x 2 |
¥126 |
¥60,072 |
||
|
MU5 x 1 |
¥21 |
¥10,139 |
||
|
千问3-4B |
qwen3-4b |
MU1 x 2 |
¥108 |
¥52,236 |
|
MU5 x 1 |
¥21 |
¥10,139 |
||
|
千问3-1.7B |
qwen3-1.7b |
MU1 x 2 |
¥108 |
¥52,236 |
|
MU5 x 1 |
¥21 |
¥10,139 |
||
|
千问3-Embedding-0.6B |
qwen3-embedding-0.6b |
MU5 x 1 |
¥21 |
¥10,139 |
|
MU6 x 1 |
¥25 |
¥12,089 |
||
|
千问3-MoE-Rerank-0.6B |
qwen3-moe-rerank-0.6b |
MU5 x 1 |
¥21 |
¥10,139 |
|
千问3-Rerank-0.6B |
qwen3-rerank-0.6b |
MU5 x 1 |
¥21 |
¥10,139 |
|
MU6 x 1 |
¥25 |
¥12,089 |
||
|
千问3-Max-2025-09-23 |
qwen3-max-2025-09-23 |
MU2 x 8 |
¥504 |
¥240,288 |
|
MU3 x 8 |
¥1,096 |
¥527,752 |
||
|
千问3-Rerank |
qwen3-rerank |
MU5 x 1 |
¥21 |
¥10,139 |
|
千问2.5-开源版-72B |
qwen2.5-72b-instruct |
MU1 x 4 |
¥216 |
¥104,472 |
|
千问2.5-开源版-32B |
qwen2.5-32b-instruct |
MU1 x 4 |
¥216 |
¥104,472 |
|
千问2.5-开源版-14B |
qwen2.5-14b-instruct |
MU1 x 2 |
¥108 |
¥52,236 |
|
千问2.5-开源版-7B |
qwen2.5-7b-instruct |
MU1 x 2 |
¥108 |
¥52,236 |
|
MU5 x 1 |
¥21 |
¥10,139 |
||
|
千问2.5-开源版-3B |
qwen2.5-3b-instruct |
MU5 x 1 |
¥21 |
¥10,139 |
|
千问-Flash-2025-07-28 |
qwen-flash-2025-07-28 |
MU1 x 4 |
¥216 |
¥104,472 |
|
千问-Plus-2025-07-28 |
qwen-plus-2025-07-28 |
MU1 x 4 MU1 x 16(PD分离模式) |
¥216 PD分离模式:¥864 |
¥104,472 PD分离模式:¥417,888 |
|
千问-Plus-2025-12-01 |
qwen-plus-2025-12-01 |
MU1 x 4 |
¥216 |
¥104,472 |
GLM
|
模型名称 |
模型代码 |
模型单元规格 |
小时单价(元) |
包月单价(元) |
|
GLM-5 |
glm-5 |
MU3 x 16(PD分离模式) |
PD分离模式:¥2,192 |
PD分离模式:¥1,055,504 |
|
GLM-4.7 |
glm-4.7 |
MU6 x 32(PD分离模式) |
PD分离模式:¥800 |
PD分离模式:¥386,848 |
DeepSeek
|
模型名称 |
模型代码 |
模型单元规格 |
小时单价(元) |
包月单价(元) |
|
DeepSeek-v4-Flash |
deepseek-v4-flash |
MU1 x 8 |
¥432 |
¥208,944 |
|
DeepSeek-v3.2 |
deepseek-v3.2 |
MU2 x 16(PD分离模式) |
PD分离模式:¥1,008 |
PD分离模式:¥480,576 |
更多模型
|
模型名称 |
模型代码 |
模型单元规格 |
小时单价(元) |
包月单价(元) |
|
MiniMax-M2.5 |
MiniMax-M2.5 |
MU1 x 16(PD分离模式) |
PD分离模式:¥864 |
PD分离模式:¥417,888 |
|
Kimi-K2.5 |
kimi-k2.5 |
MU2 x 8 |
¥504 |
¥240,288 |
模型类型:
-
Instruct - 模型部署后以非思考模式进行推理。
-
Thinking - 模型部署后以思考模式进行推理。
模型部署类型:
-
PD 分离模式 - 降低首 Token 延迟、提高吞吐。
该部署模式部署的模型在进行模型推理时,将首 Token 计算(Prefill)和后续 Token 计算(Decode)两个计算阶段,拆到不同的计算节点执行。
多模态
千问VL
|
模型名称 |
模型代码 |
模型单元规格 |
小时单价(元) |
包月单价(元) |
|
千问3-VL-235B-A22B-Instruct |
qwen3-vl-235b-a22b-instruct |
MU1 x 4 |
¥216 |
¥104,472 |
|
千问3-VL-235B-A22B-Thinking |
qwen3-vl-235b-a22b-thinking |
MU1 x 4 |
¥216 |
¥104,472 |
|
千问3-VL-32B-Instruct |
qwen3-vl-32b-instruct |
MU2 x 8 |
¥504 |
¥240,288 |
|
千问3-VL-8B-Instruct |
qwen3-vl-8b-instruct |
MU1 x 2 |
¥108 |
¥52,236 |
|
千问3-VL-4B-Instruct |
qwen3-vl-4b-instruct |
MU1 x 2 |
¥108 |
¥52,236 |
|
千问3-VL-2B-Instruct |
qwen3-vl-2b-instruct |
MU5 x 1 |
¥21 |
¥10,139 |
|
千问3-VL-Embedding-2B |
qwen3-vl-embedding-2b |
MU5 x 1 |
¥21 |
¥10,139 |
|
千问3-VL-Flash-2025-10-15 |
qwen3-vl-flash-2025-10-15 |
MU1 x 4 |
¥216 |
¥104,472 |
|
千问3-VL-Plus-2025-09-23 |
qwen3-vl-plus-2025-09-23 |
MU1 x 4 |
¥216 |
¥104,472 |
|
千问VL-Max-2025-08-13 |
qwen-vl-max-2025-08-13 |
MU6 x 4 |
¥100 |
¥48,356 |
|
千问VL-OCR-2025-11-20 |
qwen-vl-ocr-2025-11-20 |
MU6 x 4 |
¥100 |
¥48,356 |
千问 Omni
|
模型名称 |
模型代码 |
模型单元规格 |
小时单价(元) |
包月单价(元) |
|
千问3.5-Omni-Flash |
qwen3.5-omni-flash |
MU8 x 1 |
¥47 |
¥22,400 |
|
MU9 x 1 |
¥51 |
¥24,600 |
||
|
千问3.5-Omni-Plus |
qwen3.5-omni-plus |
MU9 x 8 |
¥408 |
¥196,800 |
模型类型:
-
Instruct - 模型部署后以非思考模式进行推理。
-
Thinking - 模型部署后以思考模式进行推理。
-
Instruct/Thinking - 可在模型部署时选择是否开启思考模式。
语音合成
CosyVoice
|
模型名称 |
模型代码 |
模型单元规格 |
小时单价(元) |
包月单价(元) |
|
cosyvoice-v3-flash |
cosyvoice-v3-flash |
MU5 |
¥21 |
¥10,139 |
按模型 Token 使用量
费用 = 模型输入 Token 数 × 模型输入单价 + 模型输出 Token 数 × 模型输出单价(最小计费单位:1 token)
-
仅当对下列基础模型完成 SFT 高效训练并得到自定义模型后,才支持按模型 Token 使用量计费。
千问
|
基础模型 |
模型代码 |
输入 元/千Token |
输出 元/千Token |
|
千问3-32B |
qwen3-32b |
¥0.002 |
非思考模式:¥0.008 思考模式:¥0.02 |
|
千问3-14B |
qwen3-14b |
¥0.001 |
非思考模式:¥0.004 思考模式:¥0.01 |
|
千问3-8B |
qwen3-8b |
¥0.0005 |
非思考模式:¥0.002 思考模式:¥0.005 |
|
千问2.5-开源版-72B |
qwen2.5-72b-instruct |
¥0.004 |
¥0.012 |
|
千问2.5-开源版-32B |
qwen2.5-32b-instruct |
¥0.002 |
¥0.006 |
|
千问2.5-开源版-14B |
qwen2.5-14b-instruct |
¥0.001 |
¥0.003 |
|
千问2.5-开源版-7B |
qwen2.5-7b-instruct |
¥0.0005 |
¥0.001 |
千问VL
|
基础模型 |
模型代码 |
输入 元/千Token |
输出 元/千Token |
|
千问3-VL-8B-Instruct |
qwen3-vl-8b-instruct |
¥0.0005 |
¥0.002 |
|
千问2.5-VL-72B |
qwen2.5-vl-72b-instruct |
¥0.016 |
¥0.048 |
|
千问2.5-VL-32B |
qwen2.5-vl-32b-instruct |
¥0.008 |
¥0.024 |
|
千问2.5-VL-7B |
qwen2.5-vl-7b-instruct |
¥0.002 |
¥0.005 |
响应示例
命令执行完成后,返回如下结果:
{
"request_id": "f2ae64f7-83cc-410c-bc0b-840443f7eb86",
"output": {
"deployed_model": "emo-35b3f106-sample01",
"gmt_create": "2025-06-17T11:00:38.68",
"gmt_modified": "2025-06-17T11:00:38.68",
"status": "PENDING",
"model_name": "emo",
"base_model": "emo",
"base_capacity": 1,
"capacity": 1,
"ready_capacity": 0,
"workspace_id": "llm-v71tlv3d***",
"charge_type": "post_paid",
"creator": "175805416***",
"modifier": "175805416***"
}
}
响应参数
|
参数 |
类型 |
说明 |
|
request_id |
String |
本次请求的ID。 |
|
output |
Object |
本次部署任务的详细信息。 |
|
deployed_model |
String |
新模型的唯一标识。可用于查询部署详情、修改部署限流、部署扩缩容、删除部署等接口,也在发起模型调用请求时通过SDK参数传入。 |
|
gmt_create |
String |
创建部署任务的时间。 |
|
gmt_modified |
String |
修改部署任务的时间。 |
|
status |
String |
部署任务的状态。
|
|
model_name |
String |
部署任务使用的模型名称。 |
|
base_model |
String |
部署任务使用的模型对应的基础模型ID。 |
|
base_capacity |
Number |
基础模型运行所需的最小资源单元数量。 |
|
capacity |
Number |
部署任务使用的资源单元数量。 |
|
ready_capacity |
Number |
已就绪并可立即处理请求的资源单元数量。受限于资源初始化速度或硬件状态。 |
|
workspace_id |
String |
部署任务所属的业务空间ID。 |
|
charge_type |
String |
部署任务的扣费方法。
|
|
creator |
String |
该部署任务创建人UID。 |
|
modifier |
String |
对该部署任务进行最后一次操作的账号UID。 |
|
plan |
String |
部署任务的计费模式。(部分模式不显示该参数) |
|
仅模型单元部署方式响应 |
||
|
model_unit_spec |
String |
模型单元规格。 |
|
enable_thinking |
Boolean |
是否开启思考模式,部分模型支持。 |
|
max_context_length |
Number |
最大上下文长度限制。 |
|
rpm_limit |
String |
Requests per minute,每分钟请求数。 |
|
tpm_limit |
Number |
Token per minute,每分钟 Token 使用量。 |
|
仅预置吞吐量(ptu)部署方式响应 |
||
|
ptu_capacity |
Object |
当设置 样例: |
|
ptu_capacity.input_tpm |
Number |
所有模型支持,input token pre-minute,部署的模型每分钟支持的最大输入 Token 量。 |
|
ptu_capacity.output_tpm |
Number |
所有模型支持,output token pre-minute,部署的模型每分钟支持的最大输出 Token 量。 |
|
ptu_capacity.thinking_output_tpm |
Number |
部分模型支持,thinking output token pre-minute,部署的模型每分钟支持的预置思考最大输出 Token 量。 |
异常响应
响应示例
{
"request_id": "ca218d57-b91b-46b2-bd35-c41c6287bcf4",
"message": "Model: qwen-plus-20230703-cx7f not found!",
"code": "NotFound"
}
响应参数
|
字段 |
类型 |
描述 |
|
request_id |
String |
本次请求的系统唯一码。 |
|
code |
String |
错误码。 |
|
message |
String |
错误信息。 |
当请求出错时,可能返回以下错误:
|
错误码 |
错误信息 |
错误原因 |
|
NotFound |
Model: xxx not found! |
|
|
Conflict |
Deployed model xxx already exists, please specify a suffix. |
创建部署任务时使用了已使用过的suffix。 |
|
InvalidParameter |
Invalid capacity (xx), capacity must be larger than or equal to 0 and multiples of 1 and less than 1000! |
创建/更新部署任务时指定了无效的算力单元数量。 |
后续步骤
部署完成后(status 为 RUNNING),即可调用模型进行推理。视频生成模型的推理调用方式请参见调用模型生成视频或调用模型生成图像。