文档

计量计费

更新时间:

通义千问

计费单元

模型服务

计费单元

Qwen2

token

Qwen1.5

Qwen

说明

Token是模型用来表示自然语言文本的基本单位,可以直观地理解为“字”或“词”。对于中文文本来说,1个token通常对应一个汉字;对于英文文本来说,1个token通常对应3至4个字母。

通义千问开源模型服务根据模型输入和输出的token数量分别进行计量计费,其中多轮对话中的history作为输入也会进行计量计费。每一次模型调用产生的实际token数量可以从response中获取。

计费单价

模型服务

模型规格

输入(input)价格

输出(output)价格

计费模式

Qwen2

qwen2-72b-instruct

0.005元/1,000 tokens

0.01元/1,000 token

后付费

qwen2-57b-a14b-instruct

0.0035元/1,000 token

0.007元/1,000 token

qwen2-7b-instruct

0.001元/1,000 token

0.002元/1,000 token

qwen2-1.5b-instruct

限时免费中

限时免费中

qwen2-0.5b-instruct

限时免费中

限时免费中

Qwen1.5

qwen1.5-110b-chat

0.007元/1,000 tokens

0.014元/1,000 tokens

qwen1.5-72b-chat

0.005元/1,000 tokens

0.01元/1,000 tokens

qwen1.5-32b-chat

0.0035元/1,000 tokens

0.007元/1,000 tokens

qwen1.5-14b-chat

0.002元/1,000 tokens

0.004元/1,000 tokens

qwen1.5-7b-chat

0.001元/1,000 tokens

0.002元/1,000 tokens

qwen1.5-1.8b-chat

限时免费中

限时免费中

qwen1.5-0.5b-chat

限时免费中

限时免费中

Qwen

qwen-72b-chat

0.02元/1,000 tokens

0.02元/1,000 tokens

qwen-14b-chat

0.008元/1,000 tokens

0.008元/1,000 tokens

qwen-7b-chat

0.006元/1,000 tokens

0.006元/1,000 tokens

qwen-1.8b-chat

限时免费中

限时免费中

免费额度

模型服务

模型名

免费额度

通义千问110B

qwen1.5-110b-chat

100万tokens

领取方式:新用户开通后自动发放到账户中。

有效期:30天

通义千问72B

qwen2-72b-instruct

qwen-72b-chat

qwen1.5-72b-chat

通义千问57B

qwen2-57b-a14b-instruct

通义千问32B

qwen1.5-32b-chat

通义千问14B

qwen-14b-chat

qwen1.5-14b-chat

通义千问7B

qwen2-7b-instruct

qwen-7b-chat

qwen1.5-7b-chat

通义千问1.8B

qwen-1.8b-chat

限时免费开放中

通义千问1.5B

qwen2-1.5b-instruct

通义千问0.5B

qwen2-0.5b-instruct

qwen1.5-0.5b-chat

说明

免费额度将在开通服务后的下一个整点生效。例如,您在15:30开通灵积服务,您的免费额度将在16:00后生效,将抵扣您16:00后产生的账单费用。

基础限流

为了保证用户调用模型的公平性,通义千问默认对于普通用户设置了基础限流。如果超出限流指定的调用限制,用户的API请求将会因为限流控制而失败,用户需要等待一段时间待满足限流条件后方能再次调用。

说明

限流是基于模型维度的,并且和调用用户的阿里云主账号相关联,按照该账号下所有API-KEY调用该模型的总和计算限流。

模型服务

模型名

基础限流

超出基础限流申请方式

Qwen2

qwen2-72b-instruct

流量 ≤ 60 QPM,每分钟处理不超过60个完整的请求;

Token消耗 ≤ 150,000 TPM,每分钟消耗的Token数目不超过150,000。

qwen2-72b-instruct超出基础限流配额点此申请

qwen2-57b-a14b-instruct

流量 ≤ 60 QPM,每分钟处理不超过60个完整的请求;

Token消耗 ≤ 150,000 TPM,每分钟消耗的Token数目不超过150,000。

qwen2-7b-instruct

流量 ≤ 60 QPM,每分钟处理不超过60个完整的请求;

Token消耗 ≤ 150,000 TPM,每分钟消耗的Token数目不超过150,000。

qwen2-7b-instruct超出基础限流配额点此申请

qwen2-1.5b-instruct

流量 ≤ 60 QPM,每分钟处理不超过60个完整的请求;

Token消耗 ≤ 2,000,000 TPM,每分钟消耗的Token数目不超过2,000,000。

qwen2-0.5b-instruct

流量 ≤ 60 QPM,每分钟处理不超过60个完整的请求;

Token消耗 ≤ 2,000,000 TPM,每分钟消耗的Token数目不超过2,000,000。

通义千问110B

qwen1.5-110b-chat

以下条件任何一个超出都会触发限流(限时免费开放中,限流策略可能随时变化):

  • 流量 ≤ 10 QPM,每分钟处理不超过10个完整的请求;

  • Token消耗 ≤ 20,000 TPM,每分钟消耗的Token数目不超过20,000。

通义千问72B

qwen-72b-chat

以下条件任何一个超出都会触发限流(限时免费开放中,限流策略可能随时变化):

  • 流量 ≤ 80 QPM,每分钟处理不超过80个完整的请求;

  • Token消耗 ≤ 130,000 TPM,每分钟消耗的Token数目不超过130,000。

qwen1.5-72b-chat

以下条件任何一个超出都会触发限流:

  • 流量 ≤ 120 QPM,每分钟处理不超过120个完整的请求;

  • Token消耗 ≤ 200,000 TPM,每分钟消耗的Token数目不超过200,000。

qwen1.5-72b-chat超出基础限流配额点此申请

通义千问32B

qwen1.5-32b-chat

以下条件任何一个超出都会触发限流:

  • 流量 ≤ 10 QPM,每分钟处理不超过10个完整的请求;

  • Token消耗 ≤ 20,000 TPM,每分钟消耗的Token数目不超过20,000。

通义千问14B

qwen-14b-chat

以下条件任何一个超出都会触发限流:

  • 流量 ≤ 300 QPM,每分钟处理不超过300个完整的请求;

  • Token消耗 ≤ 500,000 TPM,每分钟消耗的Token数目不超过500,000。

qwen1.5-14b-chat

以下条件任何一个超出都会触发限流:

  • 流量 ≤ 120 QPM,每分钟处理不超过120个完整的请求;

  • Token消耗 ≤ 200,000 TPM,每分钟消耗的Token数目不超过200,000。

qwen1.5-14b-chat超出基础限流配额点此申请

通义千问7B

qwen-7b-chat

以下条件任何一个超出都会触发限流:

  • 流量 ≤ 300 QPM,每分钟处理不超过300个完整的请求;

  • Token消耗 ≤ 500,000 TPM,每分钟消耗的Token数目不超过500,000。

qwen1.5-7b-chat

以下条件任何一个超出都会触发限流:

  • 流量 ≤ 120 QPM,每分钟处理不超过120个完整的请求;

  • Token消耗 ≤ 200,000 TPM,每分钟消耗的Token数目不超过200,000。

通义千问1.8B

qwen-1.8b-chat

以下条件任何一个超出都会触发限流:

  • 流量 ≤ 120 QPM,每分钟处理不超过120个完整的请求;

  • Token消耗 ≤ 200,000 TPM,每分钟消耗的Token数目不超过200,000。

查看账单

有关DashScope灵积模型服务的账单时效信息请参阅产品计费

有关账单详情请前往阿里云用户中心查询。