文档

计量计费

更新时间:

重要

Llama系列模型API调用需"申请体验"(Llama2/Llama3)并通过后才可使用,否则API调用将返回错误状态码。

计费单元

模型服务

计费单元

Llama 系列大语言模型

token

重要

Token是模型用来表示自然语言文本的基本单位,可以直观地理解为“字”或“词”。对于中文文本来说,1个token通常对应一个汉字;对于英文文本来说,1个token通常对应3至4个字母。Llama服务根据模型输出结果对应的token数量进行计量计费。每一次模型调用产生的实际token数量可以从 response 中获取。

计费单价

模型名

计费单价(币种:RMB)

llama3.1-8b-instruct

限时免费中

llama3.1-70b-instruct

llama3.1-405b-instruct

llama3-8b-instruct

llama3-70b-instruct

llama2-7b-chat-v2

llama2-13b-chat-v2

免费额度

模型名

免费额度

llama3.1-8b-instruct

100万tokens

领取方式新老用户均可自动享有本次免费额度。

有效期:30天

llama3.1-70b-instruct

llama3.1-405b-instruct

llama3-8b-instruct

100万tokens

领取方式:开通阿里云百炼服务后,自动发放。

有效期:180天

llama3-70b-instruct

llama2-7b-chat-v2

llama2-13b-chat-v2

基础限流

为了保证用户调用模型的公平性,所以对于普通用户设置了基础限流。限流是基于模型维度的,并且和调用用户的阿里云主账号相关联,按照该账号下所有API-KEY调用该模型的总和计算限流。如果超出调用限制,用户的API请求将会因为限流控制而失败,用户需要等待一段时间待满足限流条件后方能再次调用。

模型名

基础限流

llama3.1-8b-instruct

以下条件任何一个超出都会触发限流:

  • 调用频次 ≤ 10 QPM,每分钟不超过10次API调用;

  • Token消耗 ≤ 20,000 TPM,每分钟消耗的Token数目不超过20,000。

llama3.1-70b-instruct

llama3.1-405b-instruct

llama3-8b-instruct

以下条件任何一个超出都会触发限流:

  • 调用频次 ≤ 10 QPM,每分钟不超过10次API调用;

  • Token消耗 ≤ 20,000 TPM,每分钟消耗的Token数目不超过20,000。

llama3-70b-instruct

llama2-7b-chat-v2

以下条件任何一个超出都会触发限流:

  • 调用频次 ≤ 60 QPM,每分钟不超过60次API调用;

  • Token消耗 ≤ 100,000 TPM,每分钟消耗的Token数目不超过100,000。

llama2-13b-chat-v2

查看账单

有关DashScope的账单时效信息请参阅:产品计费

有关账单详情请前往阿里云费用与成本查询。