模型推理、模型训练、模型部署费用说明_大模型服务平台百炼(Model Studio)-阿里云帮助中心

定价概述

开通百炼不会产生费用，调用大模型实现文本生成、图片生成、语音合成等任务时，会产生模型推理（调用）费用。此外，如果训练（调优）新模型或将模型部署到实例也会产生费用。

查看账单：请访问账单详情和成本分析页面。 查看模型调用统计：请访问模型观测页面。

计费项

模型推理（调用）

计费方式

按模型调用量

计费公式

费用 = 调用消耗量 × 单价

计费说明

免费额度：在免费额度内，实时调用不收费。查看剩余额度

计费单价：查看价格

如何付费：调用模型会自动扣费，也称为后付费。充值入口

您也可预付费，预付费与后付费价格相同，无折扣差异。

模型训练（调优）

计费方式

按训练数据量计费

计费公式

费用 = （训练数据 Token 数 + 混合训练数据 Token 数）× 循环次数 × 训练单价

开始训练前会显示预估费用和计费详情

计费说明

模型训练后获得的新模型必须进行模型部署才能评测和调用。

模型部署

计费方式

按时间计费

可包月预付费

按模型调用量计费

计费公式

费用 = 使用时长 × 实例数量 × 实例单价

支持模型丰富

费用 = 调用消耗量 × 部署后调用单价

单价与模型推理（调用）单价相同

计费说明

适合对大模型推理服务有低延迟、高SLA需求的场景。

适合对模型训练的结果进行快速验证。

模型推理（调用）计费

计费概述&免费额度

完整的模型调用价格和免费额度，请参考模型列表。详细的 RPM、TPM 等性能信息请参考限流。

可以在百炼控制台-模型观测页面查看您某个具体模型的调用次数和消耗Token数。

说明

如何获取免费额度以及如何查看剩余免费额度请参考新人免费额度。

预付费

您可以购买节省计划（预付费），用于抵扣模型推理超出免费额度后产生的推理费用。节省计划用完后，系统会开始使用账户余额扣费，您也可以购买多个节省计划进行抵扣。

购买方式	单击此处购买大语言模型推理节省计划。
适用范围	通义千问、通义法睿、百川-开源版、ChatGLM以及OpenNLU模型。请前往模型列表获取完整的模型的调用价格和免费额度。
使用说明	使用百炼时，将优先消耗节省计划的额度。如果购买了多个节省计划，抵扣时将按节省计划到期时间的先后顺序抵扣。如果到期时间相同，先购买的节省计划将优先抵扣。
退订规则	退订规则请提交工单进行咨询。
查询节省计划账单	请参见如何查询节省计划账单。

旗舰模型

其他模型的调用价格和免费额度，请参考模型列表。

旗舰模型	通义千问-Max 适合复杂任务，能力最强	通义千问-Plus 效果、速度、成本均衡	通义千问-Turbo 适合简单任务，速度快、成本极低	通义千问-Long 适合大规模文本分析，效果与速度均衡、成本较低
最大上下文长度 ^{（Token数）}	32,768	131,072	1,000,000	10,000,000
最低输入价格 ^{（每千Token）}	0.0024元	0.0008元	0.0003元	0.0005元
最低输出价格 ^{（每千Token）}	0.0096元	0.002元	0.0006元	0.002元

Batch 调用减免

文生文模型qwq-plus、qwen-max、qwen-max-latest、qwen-plus、qwen-plus-latest、qwen-turbo、qwen-turbo-latest、qwen-long、qwen-long-latest、qwq-32b-preview，视觉理解模型qwen-vl-max、qwen-vl-max-latest、qwen-vl-plus，全模态模型qwen-omni-turbo，通用文本向量模型text-embedding-v3、text-embedding-v2、text-embedding-v1和第三方模型deepseek-r1、deepseek-v3支持 Batch 调用，调用费用为实时调用的 50%。

Batch调用不支持预付费（节省计划），且不享受免费额度、Context Cache等优惠。

您可以通过文件方式提交批量任务，任务将异步执行。系统将在非高峰时段离线处理大规模数据，在任务执行完成或达到设定的最长等待时间后返回任务执行结果。您可以通过控制台或API两种方式使用批量推理任务。

Context Cache（上下文缓存）计费

开启 Context Cache 模式无需额外付费。若您的请求被系统判断命中了 Cache，被命中的 Token 会按照 cached_token 来计费，cached_token的单价为input_token单价的40%；未被命中的 Token 仍按照 input_token计费。假设某一次请求的输入 Token 数为10,000，有5,000个 Token 被系统判断命中了 Cache，则 input_token 的计费为未开启 Context Cache 模式的 70%[(50% 未命中 Cache Token)*100%单价 + (50% 命中 Cache Token)*40%单价] ）。计费示意图如下：

output_token仍按原价计费。

您可以从返回结果的cached_tokens属性获取命中 Cache 的 Token 数。

如果您通过Batch方式调用，则无法享受 Cache 的折扣。

更多详细信息请参见上下文缓存（Context Cache）。

模型训练（调优）计费

计费详情

计费方式

按训练的数据量计费

计费公式

模型训练费用 = （训练数据 Token 总数 + 混合训练数据 Token 总数）× 循环次数 × 训练单价（最小计费单位：1 token）

您可以查看模型训练控制台底部的预估训练费用，并单击计算详情，查看训练 Token 总数、循环次数和训练单价。

通义千问

通义千问VL

模型服务	模型规格	价格
通义千问2.5-开源版-72B	qwen2.5-72b-instruct	0.15元/千Token
通义千问2-开源版-72B	qwen2-72b-instruct
通义千问1.5-开源版-72B	qwen1.5-72b-chat
通义千问-开源版-72B	qwen-72b-chat
通义千问-Plus-0723	qwen-plus-0723

通义千问2.5-开源版-32B	qwen2.5-32b-instruct	0.03元/千Token
通义千问2.5-开源版-14B	qwen2.5-14b-instruct
通义千问1.5-开源版-14B	qwen1.5-14b-chat
通义千问-开源版-14B	qwen-14b-chat
通义千问-Plus	qwen-plus
通义千问Turbo	qwen-turbo
通义千问-Turbo-0624	qwen-turbo-0624

通义千问2.5-开源版-7B	qwen2.5-7b-instruct	0.006元/千Token
通义千问2-开源版-7B	qwen2-7b-instruct
通义千问1.5-开源版-7B	qwen1.5-7b-chat
通义千问-开源版-7B	qwen-7b-chat

模型服务	模型规格	价格
通义千问VL-Max-0201	qwen-vl-max-0201	0.15元/千Token
通义千问VL-Plus	qwen-vl-plus	0.03元/千Token

模型部署计费

按时间计费

按时间计费方式都支持手动扩缩容，灵活调整并发量。

按使用时长计费的计费粒度更小（小时），使用灵活。
包月计费的计费周期长（天），但更加便宜（7折）。

计费方式

计费公式

按使用时长计费

费用 = 使用时长（小时）× 实例数量 × 模型对应的实例单价（不满1小时按1小时计费）

部署前可以在模型部署控制台查看不同模型的预估每小时费用。

包月计费/预付费

费用 = 购买时长（月）× 实例数量 × 模型对应的实例单价

购买资源：请前往模型部署控制台（点击右上角的资源池管理）购买。（资源购买完成后便开始计费）

退订资源：请前往主账号的退订管理退订。退订后，将根据未用时长退回未使用金额。（不满1天按1天计费）

通义千问

通义千问VL

图像生成

模型服务	独占实例资源规格	实例单价	实例单价（预付费）
通义千问-Turbo	基础版	40元/实例/小时	20,000元/月
通义千问-Turbo-0624
通义千问2.5-开源版-14B
通义千问1.5-开源版-14B
通义千问-开源版-14B
通义千问2.5-开源版-7B
通义千问-开源版-7B
通义千问1.5-开源版-7B
通义千问2-开源版-7B	基础版v2-Qwen2	40元/实例/小时	20,000元/月

通义千问-Plus	标准版	160元/实例/小时	80,000元/月
通义千问-Plus-0723
通义千问1.5-开源版-110B
通义千问2.5-开源版-72B
通义千问1.5-开源版-72B
通义千问-开源版-72B
通义千问2.5-开源版-32B
通义千问2-开源版-72B	标准版v2-Qwen2	160元/实例/小时	80,000元/月

模型服务

独占实例资源规格

实例单价

（预付费）

基于通义千问VL-Plus训练出来的模型

基础版

40元/实例/小时

20,000元/月

基于通义千问VL-Max-0201训练出来的模型

标准版

160元/实例/小时

80,000元/月

模型服务	独占实例资源规格	实例单价	实例单价（预付费）
悦动人像EMO-detect-deployment	轻量版	20元/实例/小时	10,000元/月
悦动人像EMO-deployment
舞动人像AnimateAnyone-detect
舞动人像AnimateAnyone
通义万相-文本生成图像-0521

模型部署后性能参考

（由于 QPM 受调用的 Token 长度影响较大，仅供参考）

模型名称	每实例参考处理能力
qwen-plus	70 QPM

按模型调用量计费

按模型调用量计费方式价格很低。而如果需要进一步增加并发量，需要部署后在模型部署控制台手动申请，平台会进行人工审批。

计费方式	按模型调用量
计费公式	费用 = 模型输入 Token 数 × 模型输入单价 + 模型输出 Token 数 × 模型输出单价（最小计费单位：1 token）

重要

一个模型是可以在百炼的模型调优中进行重复训练的。

只有在基于以下基础模型，且只进行一次“SFT高效训练”后获得的自定义模型，才支持按调用量计费。

基础模型	输入单价	输出单价
通义千问 2.5-开源版-72B	0.004元/千Token	0.012元/千Token
通义千问 2.5-开源版-32B	0.0035元/千Token	0.007元/千Token
通义千问 2.5-开源版-14B	0.002元/千Token	0.006元/千Token
通义千问 2.5-开源版-7B	0.001元/千Token	0.002元/千Token
通义千问 2-开源版-7B	0.001元/千Token	0.002元/千Token

调用统计

您可以在百炼控制台-模型观测页面查看已部署的模型的调用统计数据。

常见问题

计费规则

费用管理

账单问题

API调用

抵扣券或者优惠券相关

如何计算 Token 数？

Token是模型用来表示自然语言文本的基本单位，可以直观地理解为“字”或“词”。

对于中文文本，1个Token通常对应一个汉字或词语。例如，“你好，我是通义千问”会被转换成['你好', '，', '我是', '通', '义', '千', '问']。
对于英文文本，1个Token通常对应3至4个字母或1个单词。例如，"Nice to meet you."会被转换成['Nice', ' to', ' meet', ' you', '.']。

不同的大模型切分Token的方法可能不同。您可以使用SDK在本地查看经过通义千问模型切分后的Token数据。

查看经过通义千问模型切分后的Token数据：

Python

Java

Python

        
# 请确保已经安装了DashScope Python SDK
from dashscope import get_tokenizer

# 获取tokenizer对象，目前只支持通义千问系列模型
tokenizer = get_tokenizer('qwen-turbo')

input_str = '通义千问具有强大的能力。'

# 将字符串切分成token并转换为token id
tokens = tokenizer.encode(input_str)
print(f"经过切分后的token id为：{tokens}。")
print(f"经过切分后共有{len(tokens)}个token")

# 将token id转化为字符串并打印出来
for i in range(len(tokens)):
    print(f"token id为{tokens[i]}对应的字符串为：{tokenizer.decode(tokens[i])}")

Java

        

          
      
        
// Copyright (c) Alibaba, Inc. and its affiliates.
// dashscope SDK版本 >= 2.13.0
import java.util.List;
import com.alibaba.dashscope.exception.NoSpecialTokenExists;
import com.alibaba.dashscope.exception.UnSupportedSpecialTokenMode;
import com.alibaba.dashscope.tokenizers.Tokenizer;
import com.alibaba.dashscope.tokenizers.TokenizerFactory;

public class Main {
  public static void testEncodeOrdinary(){
    Tokenizer tokenizer = TokenizerFactory.qwen();
    String prompt ="如果现在要你走十万八千里路，需要多长的时间才能到达？ ";
    // encode string with no special tokens
    List<Integer> ids = tokenizer.encodeOrdinary(prompt);
    System.out.println(ids);
    String decodedString = tokenizer.decode(ids);
    assert decodedString == prompt;
  }

  public static void testEncode() throws NoSpecialTokenExists, UnSupportedSpecialTokenMode{
    Tokenizer tokenizer = TokenizerFactory.qwen();
    String prompt = "<|im_start|>system\nYour are a helpful assistant.<|im_end|>\n<|im_start|>user\nSanFrancisco is a<|im_end|>\n<|im_start|>assistant\n";
    // encode string with special tokens <|im_start|> and <|im_end|>
    List<Integer> ids = tokenizer.encode(prompt, "all");
    // 24 tokens [151644, 8948, 198, 7771, 525, 264, 10950, 17847, 13, 151645, 198, 151644, 872, 198, 23729, 80328, 9464, 374, 264, 151645, 198, 151644, 77091, 198]
    String decodedString = tokenizer.decode(ids);
    System.out.println(ids);
    assert decodedString == prompt;

  }

  public static void main(String[] args) {
      try {
        testEncodeOrdinary();
        testEncode();
      } catch (NoSpecialTokenExists | UnSupportedSpecialTokenMode e) {
        e.printStackTrace();
      }
  }
}

本地运行的tokenizer可以用来估计文本的Token量，但是得到的结果不保证与模型服务端完全一致，仅供参考。如果您对通义千问的tokenizer细节感兴趣，请参考： tokenizer参考。

如何统计调用量？

当然您可以在百炼控制台-模型观测页面查看您某个具体模型的调用次数和消耗Token数。

多轮对话怎么计费？

在多轮对话中，历史对话的输入输出都会作为新一轮的模型输入 token 进行计费。

大模型应用会收费吗？

只创建应用不会收费。但如果调用应用进行了问答，则会根据调用的模型类型收取模型调用费用。

取消模型训练会收费么？

会，如果您主动取消训练，之前已产生的费用仍会被计算。其他原因导致的训练中断，百炼平台不会向您收取训练费用。

模型部署什么时候开始计费？

当模型完成部署，即状态为运行中时，开始收取模型部署的费用。模型状态为部署中、欠费、部署失败时，均不会计费。

如果是包月预付费，模型状态为运行中后，开始消耗包月时间。

模型部署是否可以暂停计费？

没有暂停计费的方法，但您可以通过以下方式终止计费：

对于包月预付费实例，您可以在下线实例后，在退订管理页面，退订购买的预付费资源。退订时，将从实付金额中扣除已消费金额，退回剩余金额。具体说明请参考退订说明。

按小时、按模型调用量付费的实例，您可以下线实例。实例下线后，将不再产生模型部署费用。

模型评测如何计费？

模型评测是否产生费用取决于评测的对象：

对已经部署的模型进行评测：只收取模型部署费用，评测不额外收费。
对其他模型进行评测：按照 Token 消耗量计费。

如何付费？

使用时发生余额不足、欠费等情况请直接前往费用与成本页面充值需要的金额。

预付费方法：

模型推理（调用）：单击此处购买大语言模型推理节省计划。
模型部署：请前往模型部署控制台模型部署（点击右上角“资源池管理”）购买实例或查看已购买的实例信息。
模型训练：不支持预付费。

如何预警大额计费？

您可以在费用与成本中心设置高额消费预警。

如何关闭计费、关闭按量付费、关闭按调用量计费？

按量、按调用量计费方式无法关闭，您只要不再使用百炼的功能，就不会产生费用。

为防止意外的API调用费用，您可以删除百炼的API Key。

您也可以设置高额消费预警，将预警阈值设置为一个较低值，阿里云将在产生意外扣费时通知您，避免您产生更多损失。

查看百炼的成本支出

在成本分析页面，成本类型选择应付金额，时间粒度选择月，选择时间范围（假设为2024年12月），产品选择大模型服务平台百炼，即可查看所选时间范围内百炼的成本支出。

查看模型推理总消费

在成本分析页面，成本类型选择应付金额，时间粒度选择月，选择时间范围（假设为2024年07月～12月），产品明细选择百炼大模型推理，即可查看所选时间范围内模型推理总花费。

查看具体模型的推理花费

以模型 qwen-max 为例。在账单详情页面，选择账单月份，再选择商品名称为百炼大模型推理，单击搜索。

在资产/资源实例ID列找到所有与qwen-max相关的实例。将这些实例对应的应付金额相加，即可得出所选账期内调用qwen-max模型进行模型推理所支付的费用。

如何对大模型推理明细账单进行分账？

自2024年9月7日以后产生的大模型推理账单，可通过ApiKeyID、业务空间ID、模型名称、输入/输出类型、调用渠道进行分账。

在账单详情页面，选择账单月份，再选择商品名称为百炼大模型推理，单击搜索。将搜索结果下载到本地，按照资产/资源实例ID列的内容进行分账。

完整的资产/资源实例ID，例如12xxx;llm-xxx;qwen-max;output_token;app，依次表示ApiKeyID;业务空间ID;模型名称;输入/输出类型;调用渠道。如果您的资产/资源实例ID中没有包含ApiKeyID，则表示该收费项是通过控制台调用产生的。

完整的实例ID，例如text_token;llm-xxx;qwen-max;output_token;app，依次表示计费类型;业务空间ID;模型名称;输入/输出类型;调用渠道。

您可以前往百炼API Key管理查看API Key与ApiKeyID的对应关系。

调用渠道包括app、bmp及assistant-api。app表示通过应用调用模型，bmp表示通过控制台首页或模型体验调用模型，assistant-api表示通过Assistant API调用模型。

百炼API调用报错：快速处理服务未开通或账户欠费问题

1. 服务未开通

使用阿里云主账号前往百炼控制台，如果页面顶部显示以下消息，您需要开通百炼的模型服务，以获得免费额度。如果未显示该消息，则表示您已经开通。

2. 账户余额不足

余额核查：登录费用与成本页面，确认余额是否充足。
充值操作：点击充值按钮，输入所需金额并完成支付。

3. 设置消费预警（防止重复报错）

预警配置：请参见“如何预警大额计费”，设定消费阈值，系统将在触达该金额时发送提醒。

如果有抵扣券或者优惠券，产生的费用如何扣费？

阿里云扣费顺序请前往阿里云后付费账单扣款顺序查询。

云工开物优惠券可以抵扣哪些模型的费用？

云工开物优惠券的适用范围可在云工开物页面的用券专区 > 模型服务页签下查看。具体请以下单购买时抵扣情况为准。