介绍如何查看阿里云百炼各模型的用量。
如需了解免费额度相关内容,请参考新人免费额度文档。
支持的模型
查看模型用量
模型用量统计单位说明
在阿里云百炼,不同模型的用量统计口径如下:
类型 | 二级分类 | 统计单位 | 计费说明(模型调用) |
大语言模型 | 按输入和输出对应的 Token 数计费。 | ||
视觉模型 | 张 | 按成功生成的 图像张数 计费。 | |
秒 | 按成功生成的 视频秒数 计费。 | ||
语音模型 | 秒、字符或 Token | 可能按音频时长(秒)、对应的文本字符数或 Token 数计费,视模型而定。 | |
全模态模型 | Token | 文本部分按 Token 数,其他模态(音频、图像、视频)按对应的 Token 数计费。 | |
向量模型 | Token | 按输入文本的 Token 数计费。 | |
文本向量模型 |
应用于生产环境
管理模型用量建议:
控制模型输出长度: 在调用模型 API 时,合理限制思考长度和设置
max_tokens参数,可限制模型单次生成内容的最大长度(从而控制费用)。根据任务类型选择模型: 对于分类、摘要等简单任务,优先选择成本更低的轻量级模型(如
qwen-turbo),而不是始终使用功能强大但价格也较高的模型(如qwen-max)。监控与告警: 通过用量与性能观测监控用量趋势,并可配置用量告警,当用量出现异常时及时收到通知。
优化 Prompt: 简洁、清晰的 Prompt 不仅能提升模型输出质量,也能减少不必要的输入 Token 消耗。
使用批量推理: 对于非实时、大批量的处理任务,使用批量推理通常比实时调用更具成本优势。
名词解释
名词 | 解释 |
Token | 大模型以 Token 为单位处理输入和输出。一个 Token 可能是:
根据经验,平均 1 个汉字约对应 1.5-2 个 Token;1 个英文字母约对应 0.25 个 Token;1 个英文单词约对应 1.3 个 Token:
每个模型都有最大输入和输出 Token 数(详见模型列表),超过限制会导致请求失败。 |
实时推理 | 指对模型的所有直接和间接调用,主要涵盖以下场景:
|
批量推理 | 对于无需实时响应的场景,通过OpenAI兼容-Batch接口以离线方式进行的大规模数据处理。 |
常见问题
Q: 如何查我的阿里云账号的 Token 总用量?
A: 使用阿里云账号(主账号)访问账单详情页面并导出账单,然后在账单中查看 Token 用量。
