计量计费_大模型服务平台百炼-阿里云帮助中心

计费单元

模型服务	计费单元
Llama3 大语言模型	token
LLaMa2 大语言模型	token

重要

Token是模型用来表示自然语言文本的基本单位，可以直观的理解为“字”或“词”。对于中文文本来说，1个token通常对应一个汉字；对于英文文本来说，1个token通常对应3至4个字母。Llama2服务根据模型输出结果对应的token数量进行计量计费。每一次模型调用产生的实际token数量可以从 response 中获取。

计费单价

模型名	计费单价（币种：RMB）
llama3-8b-instruct	限时免费中
llama3-70b-instruct
llama2-7b-chat-v2
llama2-13b-chat-v2

免费额度

模型名	免费额度
llama3-8b-instruct	100万tokens 领取方式：开通阿里云百炼服务后，自动发放。有效期：180天
llama3-70b-instruct
llama2-7b-chat-v2
llama2-13b-chat-v2

基础限流

为了保证用户调用模型的公平性，所以对于普通用户设置了基础限流。限流是基于模型维度的，并且和调用用户的阿里云主账号相关联，按照该账号下所有API-KEY调用该模型的总和计算限流。如果超出调用限制，用户的API请求将会因为限流控制而失败，用户需要等待一段时间待满足限流条件后方能再次调用。如果有超出基础限流的调用需求，可发送电子邮件至modelstudio@service.aliyun.com额外申请。

模型名	基础限流
llama3-8b-instruct	以下条件任何一个超出都会触发限流：调用频次 ≤ 10 QPM，每分钟不超过10次API调用； Token消耗 ≤ 20,000 TPM，每分钟消耗的Token数目不超过20,000。
llama3-70b-instruct
llama2-7b-chat-v2	以下条件任何一个超出都会触发限流：调用频次 ≤ 60 QPM，每分钟不超过60次API调用； Token消耗 ≤ 100,000 TPM，每分钟消耗的Token数目不超过100,000。
llama2-13b-chat-v2

查看账单

有关账单详情请前往阿里云用户中心查询。