模型用量

介绍如何查看阿里云百炼各模型的用量。

如需了解免费额度相关内容,请参考新人免费额度文档。

支持的模型

模型列表中的所有模型均支持查看用量,包括基于它们调优后的模型

查看模型用量

模型用量:用量统计页面查看。数据按业务空间维度统计,不支持按阿里云账号维度统计(如何解决)。数据延迟约为 1 小时

  1. 进入页面后,选择对应的模型类型(如大语言模型)页签,再按需选择统计时间范围。页面将汇总展示所选时间段内,该推理类型下所有已调用过模型的用量。

    统计时间范围:不支持查看 30 天以前的统计数据。如需查询更早的用量信息,请通过费用与成本页面查询。
    按推理类型筛选:仅「大语言模型」页签支持按推理类型(实时推理批量推理)筛选;若该空间下从未产生过「批量推理」用量数据,推理类型下拉框只会显示「实时推理」。
  2. 如需查询某个具体模型的用量,可在页面右侧搜索框输入模型名称(如qwen-plus)筛选对应数据。

    可前往模型列表查询模型名称。

模型用量统计单位说明

在阿里云百炼,不同模型的用量统计口径如下:

类型

二级分类

统计单位

计费说明(模型调用)

大语言模型

文本生成模型

Token

按输入和输出对应的 Token 数计费。

深度思考模型

视觉理解模型

视觉模型

图像生成

按成功生成的 图像张数 计费。

视频生成

按成功生成的 视频秒数 计费。

语音模型

语音合成模型

秒、字符或 Token

可能按音频时长(秒)、对应的文本字符数或 Token 数计费,视模型而定。

实时语音合成模型

录音文件识别模型

实时语音识别模型

音视频翻译模型

全模态模型

全模态模型

Token

文本部分按 Token 数,其他模态(音频、图像、视频)按对应的 Token 数计费。

实时多模态模型

向量模型

多模态向量模型

Token

按输入文本的 Token 数计费。

文本向量模型

应用于生产环境

管理模型用量建议:

  • 控制模型输出长度: 在调用模型 API 时,合理限制思考长度和设置 max_tokens 参数,可限制模型单次生成内容的最大长度(从而控制费用)。

  • 根据任务类型选择模型: 对于分类、摘要等简单任务,优先选择成本更低的轻量级模型(如 qwen-turbo),而不是始终使用功能强大但价格也较高的模型(如 qwen-max)。

  • 监控与告警: 通过用量与性能观测监控用量趋势,并可配置用量告警,当用量出现异常时及时收到通知。

  • 优化 Prompt: 简洁、清晰的 Prompt 不仅能提升模型输出质量,也能减少不必要的输入 Token 消耗。

  • 使用批量推理: 对于非实时、大批量的处理任务,使用批量推理通常比实时调用更具成本优势。

名词解释

名词

解释

Token

大模型以 Token 为单位处理输入和输出。一个 Token 可能是:

  • 单个字符:A

  • 完整的单词:largeModel

  • 长单词的一部分:一个长单词通常会被拆分为多个 Token,拆分的过程称为分词。

根据经验,平均 1 个汉字约对应 1.5-2 个 Token;1 个英文字母约对应 0.25 个 Token;1 个英文单词约对应 1.3 个 Token:

  • 阿里云百炼:约 4-5 个 Token

  • Hello World:约 2 个 Token

每个模型都有最大输入和输出 Token 数(详见模型列表),超过限制会导致请求失败。

实时推理

指对模型的所有直接和间接调用,主要涵盖以下场景:

批量推理

对于无需实时响应的场景,通过OpenAI兼容-Batch接口以离线方式进行的大规模数据处理。

常见问题

Q: 如何查我的阿里云账号的 Token 总用量?

A: 使用阿里云账号(主账号)访问账单详情页面并导出账单,然后在账单中查看 Token 用量。

image