定价概述 | 开通百炼不会产生费用,调用大模型实现文本生成、图片生成、语音合成等任务时,会产生模型推理(调用)费用。此外,如果训练(调优)新模型或将模型部署到实例也会产生费用。  |
计费项 | 模型推理(调用)计费方式 | 按模型调用量 | 计费公式 | 费用 = 调用消耗量 × 单价 | 计费说明 | |
计费方式 | 按训练数据量计费 | 计费公式 | 费用 = (训练数据 Token 数 + 混合训练数据 Token 数)× 循环次数 × 训练单价 开始训练前会显示预估费用和计费详情 | 计费说明 | 模型训练后获得的新模型必须进行模型部署才能评测和调用。 |
计费方式 | 按时间计费 可包月预付费 | 按模型调用量计费 | 计费公式 | 费用 = 使用时长 × 实例数量 × 实例单价 支持模型丰富 | 费用 = 调用消耗量 × 部署后调用单价 单价与模型推理(调用)单价相同 | 计费说明 | 适合对大模型推理服务有低延迟、高SLA需求的场景。 如只需提高并发,请前往怎么增加并发量? | 适合对模型训练的结果进行快速验证。 |
|
模型推理(调用)计费 | 计费概述完整的模型调用价格和免费额度,请参考模型列表。详细的 RPM、TPM 等性能信息请参考限流。 可以在百炼控制台-模型观测页面查看您某个具体模型的调用次数和消耗Token数。 免费额度如何获取免费额度以及如何查看剩余免费额度请参考新人免费额度。 预付费您可以购买节省计划(预付费),用于抵扣模型推理超出免费额度后产生的推理费用。节省计划用完后,系统会开始使用账户余额扣费,您也可以购买多个节省计划进行抵扣。 购买方式 | 单击此处购买大语言模型推理节省计划。 | 适用范围 | 通义千问、通义法睿、百川-开源版、ChatGLM以及OpenNLU模型。请前往模型列表获取完整的模型的调用价格和免费额度。通义千问、通义法睿、百川-开源版、ChatGLM以及OpenNLU模型。请前往模型列表获取完整的模型的调用价格和免费额度。 | 使用说明 | 使用百炼时,将优先消耗节省计划的额度。如果购买了多个节省计划,抵扣时将按节省计划到期时间的先后顺序抵扣。如果到期时间相同,先购买的节省计划将优先抵扣。 | 退订规则 | 退订规则请提交工单进行咨询。 | 查询节省计划账单 | 请参见如何查询节省计划账单。 |
旗舰模型其他模型的调用价格和免费额度,请参考模型列表。 旗舰模型 | 通义千问-Max
适合复杂任务,推理能力最强 | 通义千问-Plus
效果、速度、成本均衡 | 通义千问-Turbo
适合简单任务,速度快、成本极低 | 通义千问-Long
适合大规模文本分析,效果与速度均衡、成本较低 | API调用模型名 (稳定版本) | qwen-max | qwen-plus | qwen-turbo | qwen-long | 最大上下文长度 (Token数) | 32,768 | 131,072 | 1,000,000 | 10,000,000 | 最低输入价格 (每千Token) | 0.0024元 | 0.0008元 | 0.0003元 | 0.0005元 | 最低输出价格 (每千Token) | 0.0096元 | 0.002元 | 0.0006元 | 0.002元 |
Batch 调用减免通义千问模型qwen-max、qwen-plus、qwen-turbo、qwen-long、qwq-32b-preview、qwen-vl-max、qwen-vl-plus、qwen-omni-turbo,文本向量模型text-embedding-v3、text-embedding-v2、text-embedding-v1和第三方模型deepseek-r1、deepseek-v3支持 Batch 调用,调用费用为实时调用的 50%。Batch调用不支持其他类型优惠(免费额度、Context Cache等)。 您可以通过文件方式提交批量任务,任务将异步执行。系统将在非高峰时段离线处理大规模数据,在任务执行完成或达到设定的最长等待时间后返回任务执行结果。您可以通过控制台或API两种方式使用批量推理任务。 Context Cache(上下文缓存)计费开启 Context Cache 模式无需额外付费。若您的请求被系统判断命中了 Cache,被命中的 Token 会按照 cached_token 来计费,cached_token 的单价为input_token 单价的40%;未被命中的 Token 仍按照 input_token 计费。假设某一次请求的输入 Token 数为10,000,有5,000个 Token 被系统判断命中了 Cache,则 input_token 的计费为未开启 Context Cache 模式的 70%[(50% 未命中 Cache Token)*100%单价 + (50% 命中 Cache Token)*40%单价] )。计费示意图如下: output_token 仍按原价计费。

您可以从返回结果的cached_tokens 属性获取命中 Cache 的 Token 数。 如果您通过Batch方式调用,则无法享受 Cache 的折扣。 更多详细信息请参见Context Cache(上下文缓存)。 |
模型训练(调优)计费 | 计费概述计费方式 | 按训练的数据量计费 | 计费公式 | 模型训练费用 = (训练数据 Token 总数 + 混合训练数据 Token 总数)× 循环次数 × 训练单价(最小计费单位:1 token) 您可以查看模型训练控制台底部的预估训练费用,并单击计算详情,查看训练 Token 总数、循环次数和训练单价。 |
模型价格模型服务 | 模型规格 | 价格 | 通义千问2.5-开源版-72B | qwen2.5-72b-instruct | 0.15元/千Token | 通义千问2-开源版-72B | qwen2-72b-instruct | 通义千问1.5-开源版-72B | qwen1.5-72b-chat | 通义千问-开源版-72B | qwen-72b-chat | 通义千问-Plus-0723 | qwen-plus-0723 | 通义千问VL-Max-0201 | qwen-vl-max-0201 | | | | 通义千问2.5-开源版-32B | qwen2.5-32b-instruct | 0.03元/千Token | 通义千问2.5-开源版-14B | qwen2.5-14b-instruct | 通义千问1.5-开源版-14B | qwen1.5-14b-chat | 通义千问-开源版-14B | qwen-14b-chat | 通义千问-Plus | qwen-plus | 通义千问Turbo | qwen-turbo | 通义千问-Turbo-0624 | qwen-turbo-0624 | 通义千问VL-Plus | qwen-vl-plus | | | | 通义千问2.5-开源版-7B | qwen2.5-7b-instruct | 0.006元/千Token | 通义千问2-开源版-7B | qwen2-7b-instruct | 通义千问1.5-开源版-7B | qwen1.5-7b-chat | 通义千问-开源版-7B | qwen-7b-chat |
|
模型部署计费 | 按时间计费按时间计费方式都支持手动扩缩容,灵活调整并发量。 按使用时长计费的计费粒度更小(小时),使用灵活。 包月计费的计费周期长(天),但更加便宜(7折)。
计费方式 | 计费公式 | 按使用时长计费 | 费用 = 使用时长(小时)× 实例数量 × 模型对应的实例单价(不满1小时按1小时计费) 部署前可以在模型部署控制台查看不同模型的预估每小时费用。 | 包月计费/预付费 | 费用 = 购买时长(月)× 实例数量 × 模型对应的实例单价 购买资源:请前往模型部署控制台(点击右上角的资源池管理)购买。(资源购买完成后便开始计费) 退订资源:请前往主账号的退订管理退订。退订后,将根据未用时长退回未使用金额。(不满1天按1天计费) |
按时间计费支持模型模型服务 | 独占实例资源规格 | 实例单价 | 实例单价 (预付费) | 悦动人像EMO-detect-deployment | 轻量版 | 20元/实例/小时 | 10,000元/月 | 悦动人像EMO-deployment | 舞动人像AnimateAnyone-detect | 舞动人像AnimateAnyone | 通义万相-文本生成图像-0521 | | | | | 通义千问-Turbo | 基础版 | 40元/实例/小时 | 20,000元/月 | 通义千问1.5-开源版-7B | 通义千问1.5-开源版-14B | | | | | 基于通义千问2-开源版-7B训练出来的模型 | 基础版v2-Qwen2 | - | 20,000元/月 | | | | | 通义千问-Plus | 标准版 | 160元/实例/小时 | 80,000元/月 | 通义千问1.5-开源版-72B | 通义千问1.5-开源版-110B | | | | | 基于通义千问2-开源版-72B训练出来的模型 | 标准版v2-Qwen2 | - | 80,000元/月 | | | | | 通义千问-Max | 高级版 | 320元/实例/小时 | 160,000元/月 | | | | | 基于通义千问VL-Plus训练出来的模型 | - | 40元/实例/小时 | - | 基于通义千问VL-Max-0201训练出来的模型 | - | 160元/实例/小时 | - |
当模型完成部署,即状态为“运行中”时,开始收取模型部署的费用。模型状态为“部署中”、“欠费”、“部署失败”时,均不会计费。 如果是包月预付费,资源购买后便开始消耗包月时间。 模型部署后性能参考(由于 QPM 受调用的 Token 长度影响较大,仅供参考) 模型名称 | 每实例参考处理能力 | qwen-plus | 70 QPM |
按模型调用量计费按模型调用量计费方式价格很低。而如果需要进一步增加并发量,需要部署后在模型部署控制台手动申请,平台会进行人工审批。 计费方式 | 按模型调用量 | 
| 计费公式 | 费用 = 模型输入 Token 数 × 模型输入单价 + 模型输出 Token 数 × 模型输出单价(最小计费单位:1 token) |
按模型调用量计费支持模型
重要 一个模型是可以在百炼的模型调优中进行重复训练的。 只有在基于以下基础模型,且只进行一次“SFT高效训练”后获得的自定义模型,才支持按调用量计费。 基础模型 | 输入单价 | 输出单价 | 通义千问 2.5-开源版-72B | 0.004元/千Token | 0.012元/千Token | 通义千问 2.5-开源版-32B | 0.0035元/千Token | 0.007元/千Token | 通义千问 2.5-开源版-14B | 0.002元/千Token | 0.006元/千Token | 通义千问 2.5-开源版-7B | 0.001元/千Token | 0.002元/千Token | 通义千问 2-开源版-7B | 0.001元/千Token | 0.002元/千Token |
|
常见问题 | 计费常见问题如何付费?使用时发生余额不足、欠费等情况请直接前往费用与成本页面充值需要的金额。 预付费方法: 如何关闭计费、关闭按量付费、关闭按调用量计费?按量、按调用量计费方式无法关闭,您只要不再使用百炼的功能,就不会产生费用。 为防止意外的API调用费用,您可以删除百炼的API Key。 
您也可以设置高额消费预警,将预警阈值设置为一个较低值,阿里云将在产生意外扣费时通知您,避免您产生更多损失。 如何计算 Token 数?Token是模型用来表示自然语言文本的基本单位,可以直观地理解为“字”或“词”。 对于中文文本,1个Token通常对应一个汉字或词语。例如,“你好,我是通义千问”会被转换成['你好', ',', '我是', '通', '义', '千', '问']。 对于英文文本,1个Token通常对应3至4个字母或1个单词。例如,"Nice to meet you."会被转换成['Nice', ' to', ' meet', ' you', '.']。
不同的大模型切分Token的方法可能不同。您可以使用SDK在本地查看经过通义千问模型切分后的Token数据。 查看经过通义千问模型切分后的Token数据: # 运行前请 pip install dashscope
from dashscope import get_tokenizer
# 获取tokenizer对象,目前只支持通义千问系列模型
tokenizer = get_tokenizer('qwen-turbo')
input_str = '通义千问具有强大的能力。'
# 将字符串切分成token并转换为token id
tokens = tokenizer.encode(input_str)
print(f"经过切分后的token id为:{tokens}。")
print(f"经过切分后共有{len(tokens)}个token")
# 将token id转化为字符串并打印出来
for i in range(len(tokens)):
print(f"token id为{tokens[i]}对应的字符串为:{tokenizer.decode(tokens[i])}")
// Copyright (c) Alibaba, Inc. and its affiliates.
// dashscope SDK版本 >= 2.13.0
import java.util.List;
import com.alibaba.dashscope.exception.NoSpecialTokenExists;
import com.alibaba.dashscope.exception.UnSupportedSpecialTokenMode;
import com.alibaba.dashscope.tokenizers.Tokenizer;
import com.alibaba.dashscope.tokenizers.TokenizerFactory;
public class Main {
public static void testEncodeOrdinary(){
Tokenizer tokenizer = TokenizerFactory.qwen();
String prompt ="如果现在要你走十万八千里路,需要多长的时间才能到达? ";
// encode string with no special tokens
List<Integer> ids = tokenizer.encodeOrdinary(prompt);
System.out.println(ids);
String decodedString = tokenizer.decode(ids);
assert decodedString == prompt;
}
public static void testEncode() throws NoSpecialTokenExists, UnSupportedSpecialTokenMode{
Tokenizer tokenizer = TokenizerFactory.qwen();
String prompt = "<|im_start|>system\nYour are a helpful assistant.<|im_end|>\n<|im_start|>user\nSanFrancisco is a<|im_end|>\n<|im_start|>assistant\n";
// encode string with special tokens <|im_start|> and <|im_end|>
List<Integer> ids = tokenizer.encode(prompt, "all");
// 24 tokens [151644, 8948, 198, 7771, 525, 264, 10950, 17847, 13, 151645, 198, 151644, 872, 198, 23729, 80328, 9464, 374, 264, 151645, 198, 151644, 77091, 198]
String decodedString = tokenizer.decode(ids);
System.out.println(ids);
assert decodedString == prompt;
}
public static void main(String[] args) {
try {
testEncodeOrdinary();
testEncode();
} catch (NoSpecialTokenExists | UnSupportedSpecialTokenMode e) {
e.printStackTrace();
}
}
}
本地运行的tokenizer可以用来估计文本的Token量,但是得到的结果不保证与模型服务端完全一致,仅供参考。如果您对通义千问的tokenizer细节感兴趣,请参考: tokenizer参考。 如何统计调用量?当然您可以在百炼控制台-模型观测页面查看您某个具体模型的调用次数和消耗Token数。 多轮对话怎么计费?在多轮对话中,历史对话的输入输出都会作为新一轮的模型输入 token 进行计费。 怎么增加并发量?如果您需要进一步提高模型的QPM或TPM,请发送邮件至modelstudio@service.aliyun.com进行申请,并在邮件中告知阿里云主账号uid、期望申请的模型和QPM和TPM。申请通过后,您可以在模型广场中找到目标模型并单击查看详情,查看更新后的限流数据。 如果是独立部署的模型,部署完成后控制台有按钮可以操作扩容,详情请查看模型部署。
大模型应用会收费吗?只创建应用不会收费。但如果调用应用进行了问答,则会根据调用的模型类型收取模型调用费用。 取消模型训练会收费么?会,如果您主动取消训练,之前已产生的费用仍会被计算。其他原因导致的训练中断,百炼平台不会向您收取训练费用。 模型部署什么时候开始计费?当模型完成部署,即状态为运行中时,开始收取模型部署的费用。模型状态为部署中、欠费、部署失败时,均不会计费。 如果是包月预付费,模型状态为运行中后,开始消耗包月时间。 模型部署是否可以暂停计费?没有暂停计费的方法,但您可以通过以下方式终止计费: 对于包月预付费实例,您可以在下线实例后,在退订管理页面,退订购买的预付费资源。退订时,将从实付金额中扣除已消费金额,退回剩余金额。具体说明请参考退订说明。 按小时、按模型调用量付费的实例,您可以下线实例。实例下线后,将不再产生模型部署费用。 账单常见问题查看百炼的成本支出在成本分析页面,成本类型选择应付金额,时间粒度选择月,选择时间范围(假设为2024年12月),产品选择大模型服务平台百炼,即可查看所选时间范围内百炼的成本支出。 
查看模型推理总消费在成本分析页面,成本类型选择应付金额,时间粒度选择月,选择时间范围(假设为2024年07月~12月),产品明细选择百炼大模型推理,即可查看所选时间范围内模型推理总花费。 
查看具体模型的推理花费以模型 qwen-max 为例。在账单详情页面,选择账单月份,再选择商品名称为百炼大模型推理,单击搜索。 在资产/资源实例ID列找到所有与qwen-max相关的实例。将这些实例对应的应付金额相加,即可得出所选账期内调用qwen-max模型进行模型推理所支付的费用。 
如何对大模型推理明细账单进行分账?自2024年9月7日以后产生的大模型推理账单,可通过ApiKeyID、业务空间ID、模型名称、输入/输出类型、调用渠道进行分账。 在账单详情页面,选择账单月份,再选择商品名称为百炼大模型推理,单击搜索。将搜索结果下载到本地,按照资产/资源实例ID列的内容进行分账。 完整的资产/资源实例ID,例如12xxx;llm-xxx;qwen-max;output_token;app ,依次表示ApiKeyID;业务空间ID;模型名称;输入/输出类型;调用渠道 。如果您的资产/资源实例ID中没有包含ApiKeyID,则表示该收费项是通过控制台调用产生的。 完整的实例ID,例如text_token;llm-xxx;qwen-max;output_token;app ,依次表示计费类型;业务空间ID;模型名称;输入/输出类型;调用渠道 。 您可以前往百炼API Key管理查看API Key与ApiKeyID的对应关系。 调用渠道包括app、bmp及assistant-api。app表示通过应用调用模型,bmp表示通过控制台首页或模型体验调用模型,assistant-api表示通过Assistant API调用模型。 
|