文档

产品计费

更新时间:

本文档介绍阿里云百炼大模型服务平台的计费模式、类型和整体计费报价单。

重要

为了确保您能够清晰地了解产品的计量和计费规则,特别提醒您:

  • 产品定价可能会随时发生变动

  • 最终以阿里云账单为准

计费项

阿里云百炼大模型服务平台的计费项目涵盖了模型推理模型训练模型部署三个环节,分别对应三个使用场景:直接调用预置模型进行推理、对预置模型进行调优,部署预置模型或调优后的模型到独占实例后进行推理。以下是三类计费项目的简要介绍:

计费项

计费方式

适用模型

适用场景

模型推理费用

直接调用预置模型进行推理,根据实际使用的推理数量计费

预置模型

常见的服务场景:

  • 模型测试

  • 少量的模型推理

  • 不定期的模型服务

模型训练费用

当预置模型不能满足需求,需要对预置模型进行微调时,根据训练过程中实际使用的计算资源和训练时长收取费用

自定义模型

有模型定制化需求,需要针对实际应用场景微调模型

模型部署费用

部署预置模型微调后的模型独占实例后进行推理时,根据独占实例实际使用的计算资源和运行时长收取费用

预置模型、自定义模型

  • 需要使用面向您的业务场景微调过的大模型

  • 需要有独占资源来确保调用频率和响应时长满足业务诉求

说明
什么是预置模型和自定义模型?

预置模型是由大型模型服务平台提供的已经训练好的模型,例如通义千问Max通义千问Turbo等。这些模型经过大规模的训练,拥有丰富的知识和能力,具有广泛的适用性和较高质量的输出,可以直接用于各种自然语言处理任务,如文本生成、情感分析、语言翻译等,对于许多常见的应用场景是一个理想的选择。

自定义模型是基于预置模型进行调优后的定制化模型。用户可以利用自己的数据集对预置模型进行调优,调优后的模型可以学习适应用户数据的特定模式和语境,从而提高在特定任务上的性能和准确性。例如,将预置的计算机视觉模型在医学图像分类任务上进行微调,以提高对病理学图像的准确性和精度。

如何选择这两类模型?

预置模型适用于那些常见的应用场景,而自定义模型则更适用于那些需要个性化定制或者在特定任务上追求更高性能表现的场景。选择哪类模型取决于您的具体需求和目标。

计费详细清单

模型推理计费

模型推理计费适用于直接调用预置模型进行推理。

  • 计费单价:具体单价请参见模型列表

  • 计费规则:根据模型的资源使用量进行计费。模型推理默认采用后付费,即在每个计费周期结束后结算费用。

    • 文本生成类模型通常根据输入/输出的Token数量进行计费,其中多轮对话中的history作为输入也会进行计费。

    • 语音识别类模型采用输入语音文件的时长进行计费。

说明

Token是怎么计算的?

Token是模型用来表示自然语言文本的基本单位,可以直观地理解为“字”或“词”。具体说明如下:

  • 对于中文文本,1个Token通常对应一个汉字或词语。

  • 对于英文文本,1个Token通常对应3至4个字母或1个单词。

    • 例如,中文文本“你好,我是通义千问”会被转换成序列['你好', ',', '我是', '通', '义', '千', '问']。

    • 英文文本"Nice to meet you."则会被转换成['Nice', ' to', ' meet', ' you', '.']。

附:字符串与Token之间的互相转换

不同的大模型切分Token的方法可能不同。您可以使用SDK在本地查看经过通义千问模型切分后的Token数据。

# 运行前请 pip install tiktoken
from dashscope import get_tokenizer  # dashscope版本 >= 1.14.0

# 获取tokenizer对象,目前只支持通义千问系列模型
tokenizer = get_tokenizer('qwen-turbo')

input_str = '通义千问具有强大的能力。'

# 将字符串切分成token并转换为token id
tokens = tokenizer.encode(input_str)
print(f"经过切分后的token id为:{tokens}。")
print(f"经过切分后共有{len(tokens)}个token")

# 将token id转化为字符串并打印出来
for i in range(len(tokens)):
    print(f"token id为{tokens[i]}对应的字符串为:{tokenizer.decode(tokens[i])}")
// Copyright (c) Alibaba, Inc. and its affiliates.
// dashscope SDK版本 >= 2.13.0
import java.util.List;
import com.alibaba.dashscope.exception.NoSpecialTokenExists;
import com.alibaba.dashscope.exception.UnSupportedSpecialTokenMode;
import com.alibaba.dashscope.tokenizers.Tokenizer;
import com.alibaba.dashscope.tokenizers.TokenizerFactory;

public class Main {
  public static void testEncodeOrdinary(){
    Tokenizer tokenizer = TokenizerFactory.qwen();
    String prompt ="如果现在要你走十万八千里路,需要多长的时间才能到达? ";
    // encode string with no special tokens
    List<Integer> ids = tokenizer.encodeOrdinary(prompt);
    System.out.println(ids);
    String decodedString = tokenizer.decode(ids);
    assert decodedString == prompt;
  }

  public static void testEncode() throws NoSpecialTokenExists, UnSupportedSpecialTokenMode{
    Tokenizer tokenizer = TokenizerFactory.qwen();
    String prompt = "<|im_start|>system\nYour are a helpful assistant.<|im_end|>\n<|im_start|>user\nSanFrancisco is a<|im_end|>\n<|im_start|>assistant\n";
    // encode string with special tokens <|im_start|> and <|im_end|>
    List<Integer> ids = tokenizer.encode(prompt, "all");
    // 24 tokens [151644, 8948, 198, 7771, 525, 264, 10950, 17847, 13, 151645, 198, 151644, 872, 198, 23729, 80328, 9464, 374, 264, 151645, 198, 151644, 77091, 198]
    String decodedString = tokenizer.decode(ids);
    System.out.println(ids);
    assert decodedString == prompt;

  }

  public static void main(String[] args) {
      try {
        testEncodeOrdinary();
        testEncode();
      } catch (NoSpecialTokenExists | UnSupportedSpecialTokenMode e) {
        e.printStackTrace();
      }
  }
}

本地运行的tokenizer可以用来估计文本的Token量,但是得到的结果不保证与模型服务端完全一致,仅供参考。如果您对通义千问的tokenizer细节感兴趣,请参考: tokenizer参考

模型训练计费

模型训练计费是对预置模型进行调优时,根据训练过程中实际使用的计算资源和训练时长收取费用。具体费用可以通过以下公式计算:

模型训练费用=训练集Token总数×循环次数×训练单价

  • 训练集Token总数是指在训练过程中使用的所有Token的总数量。训练集Token总数决定了训练数据的规模,训练数据越大,训练效果可能越好,但同时也会消耗更多的资源。

  • 循环次数(Epoch)是指整个训练集在训练过程中被完整迭代的次数。每次循环(Epoch)中,模型会通过整个训练集进行学习和调整。通常,更多的循环次数会提高模型的性能,但也会增加训练时间和成本。

  • 训练单价是指每1,000个Token在一次循环中的训练费用。训练单价会根据所使用的模型服务和模型规格而有所不同。

说明

模型训练过程中因为等待时间太久,主动取消训练会产生计费么?

会,如果您主动取消训练,之前已产生的费用仍会被计算。其他原因导致的训练中断,百炼平台不会向您收取训练费用。

模型服务

模型规格

训练方式

价格

计费模式

通义千问-开源版-72B

qwen-72b-chat

SFT微调训练

说明

有监督微调,增强模型指令跟随的能力,提供全参和高效训练方式。

0.15元/千Token

后付费

通义千问2-开源版-72B

qwen2-72b-instruct

通义千问1.5-开源版-72B

qwen1.5-72b-chat

通义千问Turbo

qwen-turbo

0.03元/千Token

通义千问-开源版-14B

qwen-14b-chat

通义千问-plus

qwen-plus

通义千问VL-plus

qwen-vl-plus

通义千问1.5-开源版-14B

qwen1.5-14b-chat

通义千问-开源版-7B

qwen-7b-chat

0.006元/千Token

通义千问2-开源版-7B

qwen2-7b-instruct

通义千问1.5-开源版-7B

qwen1.5-7b-chat

通义千问2-开源版-72B

qwen2-72b-instruct

DPO偏好训练

说明

引入负反馈,降低幻觉,使得模型输出更符合人类偏好。

0.15元/千Token

通义千问2-开源版-7B

qwen2-7b-instruct

0.006元/千Token

模型部署计费

模型部署计费是部署预置模型调优后的模型独占实例后进行推理时,根据独占实例实际使用的算力单元和运行时长收取费用,可满足您部署微调过的大模型,或部署到独占实例的预置模型。

模型部署计费支持包月资源按量付费两种类型,您可以根据需求选择适合的模型服务、模型规格和计费模式进行部署。

  • 包月资源:预付费模式,您需要提前购买资源包,支付后即锁定资源,按月进行结算。平台将使用您已购买的资源包进行模型部署。此模式适合长期服务的稳定模型。

  • 按量付费:后付费模式,按量付费按实际使用时长计费,无需提前购买资源。您可以根据需求灵活使用,模型上线即开始计费,模型下线即停止计费。此外还支持弹性扩缩容,灵活调整独占实例资源量。此模式适用于即购即用的短期服务模型。您可查看算力单元,确定您要配置的独占实例数量。

模型服务

模型规格

独占实例资源规格

预付费价格

后付费价格

悦动人像EMO-detect

emo-detectemo-detect

轻量版

10,000元/月

20元/实例/小时

悦动人像EMO

emo

舞动人像AnimateAnyone-detect

animate-anyone-detect

舞动人像AnimateAnyone

animate-anyone

通义万相-文本生成图像-0521

wanx-v1-0521

通义千问-turbo

qwen-turbo

基础版

20,000元/月

40元/实例/小时

通义千问1.5-开源版-7B

qwen1.5-7b-chat

通义千问1.5-开源版-14B

qwen1.5-14b-chat

基于通义千问2-开源版-7B训练出来的模型

qwen2-7b-instruct

基础版v2-Qwen2

20,000元/月

-

通义千问-plus

qwen-plus

标准版

80,000元/月

160元/实例/小时

通义千问1.5-开源版-72B

qwen1.5-72b-chat

通义千问1.5-开源版-110B

qwen1.5-110b-chat

基于通义千问2-开源版-72B训练出来的模型

qwen2-72b-instruct

标准版v2-Qwen2

80,000元/月

-

通义千问-max

qwen-max

高级版

160,000元/月

320元/实例/小时

说明

独占实例费用是如何计算的?

模型部署计费按独占实例数进行计费。实例是由算力单元组成,不同模型的实例对应的算力单元不同。以下是关于部署费用的详细说明:

  • 部署费用计算

    • 部署费用 = 算力单元 × 算力单元单价

    • 算力单元单价为20元/小时

  • 费用规则

    • 部署失败不收取费用。

    • 按量付费模式下,部署成功后开始计费。

    • 包月资源模式下,需提前购买资源实例,部署成功后不再额外计费。

举例:

  • qwen-turbo:1个实例 = 2个算力单元 = 20元/小时 × 2 = 40元/小时

  • qwen-plus:1个实例 = 8个算力单元 = 20元/小时 × 8 = 160元/小时

  • qwen-max:1个实例 = 16个算力单元 = 20元/小时 × 16 = 320元/小时

不同模型对应的算力单元数不同,详细内容请在模型部署控制台页面查看。

image

说明

计费示例小A在阿里云百炼平台部署了1个小时的qwen-plus模型,账单显示了一笔320元的费用。请问小A应该怎么理解费用明细?

解答:

  1. 首先,qwen-plus一个实例部署的费用为160元/小时,正常情况下应该收费160元,但实际收取了320元。

  2. 其次,已知1个算力单元的费用为20元/小时,并且qwen-plus的实例部署费用为160元/小时,则qwen-plus的1个实例需要8个算力单元(160元 ÷ 20元/小时 = 8个算力单元)。

  3. 最后,实际消费320元,那么320元 ÷ 20元/小时 = 16个算力单元。由此推测,小A在部署模型时可能选择了2个实例(每个实例8个算力单元),所以导致最终收费金额为320元。

因此,小A的账单显示的320元是因为部署了2个qwen-plus实例,每个实例的费用是160元/小时。

常见问题

  1. 当前如何开通模型推理服务?

    通过阿里云百炼产品页面,访问阿里云百炼控制台,开通模型推理服务

  2. 发起模型部署(大模型独占实例)时,一般会有几种状态,分别代表什么意思?

    状态

    操作

    计费情况

    部署中

    查看

    此状态不计费

    运行中

    查看、扩缩容、下线

    此状态持续计费点击下线后部署任务消失,停止计费

    欠费停服

    查看、删除

    此状态不计费,欠费状态不会持续计费,但充值后,模型将恢复服务,自动恢复后将开始计费,点击删除后部署任务消失,不再计费

    欠费恢复中

    查看

    此状态不计费,表示账户已充值,系统自动恢复服务中,服务恢复后,状态变换为运行中将恢复计费

    部署失败

    查看、删除、重新部署

    此状态不计费,重新部署成功后变为运行中状态将进行计费,点击删除后部署任务消失,不再计费

  3. 部署环节过程中,如果您不想继续部署服务,是否可以暂停?是否有页面引导?

    当状态为“部署中”时,可以点击下线/删除按钮来暂停部署服务。下线即相当于删除部署任务。页面上会有相应的引导和操作按钮,帮助您进行这些操作。

  4. 模型评测是否会产生计费?

    模型的维度管理不收费。模型评测是否产生费用取决于评测方式:

    • 通过独立部署完成的模型评测:不收费。

    • 使用预置模型进行评测:会产生计费。

  5. 怎么增加并发量?以及大概怎么收费?

    不同模式有不同说明:

    • 按Token调用模式(即模型推理计费模式,仅适用于预置模型):目前暂不支持增加并发量。如果业务实际需要增加并发量,请先联系对接的商务同学反馈给产品团队。

    • 按独占实例部署模式:如果客户希望独立部署模型调用,每实例当前的并发量约为1.5。客户可以按照并发量进行计算,并购买对应数量的独占实例。目前独占实例只支持训练之后的模型以及基础版模型。例如,客户需要3并发,则购买2个独占实例即可。

  6. 如果有抵扣券或者优惠券,产生的费用如何扣费?

    阿里云扣费顺序请前往阿里云后付费账单扣款顺序查询。

  7. 怎么查看后付费的账单?

    有关账单详情请前往费用与成本查询。