通义千问7B、14B和72B模型是如何计费的_大模型服务平台百炼(Model Studio)-阿里云帮助中心

通义千问开源模型

计费单元

模型服务	计费单元
Qwen2	token
Qwen1.5
Qwen

说明

Token是模型用来表示自然语言文本的基本单位，可以直观的理解为“字”或“词”。对于中文文本来说，1个token通常对应一个汉字；对于英文文本来说，1个token通常对应3至4个字母。

上述模型服务根据模型输入和输出的总token数量进行计量计费，其中多轮对话中的history作为输入也会进行计量计费。每一次模型调用产生的实际token数量可以从 response 中获取。

计费单价

模型服务	模型规格	输入（input）价格	输出（output）价格	计费模式
Qwen2	qwen2-72b-instruct	0.005元/1,000 tokens	0.01元/1,000 token	后付费
	qwen2-57b-a14b-instruct	0.0035元/1,000 token	0.007元/1,000 token
	qwen2-7b-instruct	0.001元/1,000 token	0.002元/1,000 token
	qwen2-1.5b-instruct	限时免费中	限时免费中
	qwen2-0.5b-instruct	限时免费中	限时免费中
Qwen1.5	qwen1.5-110b-chat	0.007元/1,000 tokens	0.014元/1,000 tokens
	qwen1.5-72b-chat	0.005元/1,000 tokens	0.01元/1,000 tokens
	qwen1.5-32b-chat	0.0035元/1,000 tokens	0.007元/1,000 tokens
	qwen1.5-14b-chat	0.002元/1,000 tokens	0.004元/1,000 tokens
	qwen1.5-7b-chat	0.001元/1,000 tokens	0.002元/1,000 tokens
	qwen1.5-1.8b-chat	限时免费中	限时免费中
	qwen1.5-0.5b-chat	限时免费中	限时免费中
Qwen	qwen-72b-chat	0.02元/1,000 tokens	0.02元/1,000 tokens
	qwen-14b-chat	0.008元/1,000 tokens	0.008元/1,000 tokens
	qwen-7b-chat	0.006元/1,000 tokens	0.006元/1,000 tokens
	qwen-1.8b-chat	限时免费中	限时免费中

免费额度

模型服务	模型名	免费额度
Qwen2	qwen2-72b-instruct	100万tokens 领取方式：新用户开通后自动发放到账户中。有效期：30天
	qwen2-57b-a14b-instruct
	qwen2-7b-instruct
	qwen2-1.5b-instruct	限时免费中
	qwen2-0.5b-instruct	限时免费中
Qwen1.5	qwen1.5-110b-chat	100万tokens 领取方式：新用户开通后自动发放到账户中。有效期：30天
	qwen1.5-72b-chat
	qwen1.5-32b-chat
	qwen1.5-14b-chat
	qwen1.5-7b-chat
	qwen1.5-1.8b-chat	限时免费中
	qwen1.5-0.5b-chat	限时免费中
Qwen	qwen-72b-chat	100万tokens 领取方式：新用户开通后自动发放到账户中。有效期：30天
	qwen-14b-chat
	qwen-7b-chat
	qwen-1.8b-chat	限时免费中

说明

免费额度将在开通服务后的下一个整点生效。例如，您在15:30开通灵积服务，您的免费额度将在16:00后生效，将抵扣您16:00后产生的账单费用。

基础限流

为了保证用户调用模型的公平性，通义千问开源系列设置了基础限流。如果超出限流指定的调用限制，用户的API请求将会因为限流控制而失败，用户需要等待一段时间待满足限流条件后方能再次调用。

重要

限流是基于模型维度的，并且和调用用户的阿里云主账号相关联，按照该账号下所有API-KEY调用该模型的总和计算限流。

模型服务	模型名	基础限流	超过基础限流申请入口
Qwen2	qwen2-72b-instruct	流量 ≤ 60 QPM，每分钟处理不超过60个完整的请求； Token消耗 ≤ 15,0000 TPM，每分钟消耗的Token数目不超过15,0000。
	qwen2-57b-a14b-instruct	流量 ≤ 60 QPM，每分钟处理不超过60个完整的请求； Token消耗 ≤ 15,0000 TPM，每分钟消耗的Token数目不超过15,0000。
	qwen2-7b-instruct	流量 ≤ 60 QPM，每分钟处理不超过60个完整的请求； Token消耗 ≤ 15,0000 TPM，每分钟消耗的Token数目不超过15,0000。
	qwen2-1.5b-instruct	流量 ≤ 60 QPM，每分钟处理不超过60个完整的请求； Token消耗 ≤ 200,0000 TPM，每分钟消耗的Token数目不超过200,0000。
	qwen2-0.5b-instruct	流量 ≤ 60 QPM，每分钟处理不超过60个完整的请求； Token消耗 ≤ 200,0000 TPM，每分钟消耗的Token数目不超过200,0000。
通义千问110B	qwen1.5-110b-chat	以下条件任何一个超出都会触发限流（限时免费开放中，限流策略可能随时变化）：流量 ≤ 10 QPM，每分钟处理不超过10个完整的请求； Token消耗 ≤ 20,000 TPM，每分钟消耗的Token数目不超过20,000。
通义千问72B	qwen-72b-chat	以下条件任何一个超出都会触发限流（限时免费开放中，限流策略可能随时变化）：流量 ≤ 80 QPM，每分钟处理不超过80个完整的请求； Token消耗 ≤ 130,000 TPM，每分钟消耗的Token数目不超过130,000。
通义千问72B	qwen1.5-72b-chat	以下条件任何一个超出都会触发限流：流量 ≤ 120 QPM，每分钟处理不超过120个完整的请求； Token消耗 ≤ 200,000 TPM，每分钟消耗的Token数目不超过200,000。	qwen1.5-72b-chat超出基础限流配额点此申请
通义千问32B	qwen1.5-32b-chat	以下条件任何一个超出都会触发限流：流量 ≤ 10 QPM，每分钟处理不超过10个完整的请求； Token消耗 ≤ 20,000 TPM，每分钟消耗的Token数目不超过20,000。
通义千问14B	qwen-14b-chat	以下条件任何一个超出都会触发限流：流量 ≤ 300 QPM，每分钟处理不超过300个完整的请求； Token消耗 ≤ 500,000 TPM，每分钟消耗的Token数目不超过500,000。
通义千问14B	qwen1.5-14b-chat	以下条件任何一个超出都会触发限流：流量 ≤ 120 QPM，每分钟处理不超过120个完整的请求； Token消耗 ≤ 200,000 TPM，每分钟消耗的Token数目不超过200,000。	qwen1.5-14b-chat超出基础限流配额点此申请
通义千问7B	qwen-7b-chat	以下条件任何一个超出都会触发限流：流量 ≤ 300 QPM，每分钟处理不超过300个完整的请求； Token消耗 ≤ 500,000 TPM，每分钟消耗的Token数目不超过500,000。
通义千问7B	qwen1.5-7b-chat	以下条件任何一个超出都会触发限流：流量 ≤ 120 QPM，每分钟处理不超过120个完整的请求； Token消耗 ≤ 200,000 TPM，每分钟消耗的Token数目不超过200,000。
通义千问1.8B	qwen-1.8b-chat	以下条件任何一个超出都会触发限流：流量 ≤ 120 QPM，每分钟处理不超过120个完整的请求； Token消耗 ≤ 200,000 TPM，每分钟消耗的Token数目不超过200,000。

查看账单

有关账单详情请前往阿里云用户中心查询。