通义千问大语言模型介绍-大模型服务平台百炼-阿里云

通义千问是由阿里云自主研发的大模型，用于理解和分析用户输入的自然语言，以及图片、音频、视频等多模态数据。在不同领域和任务为用户提供服务和帮助。您可以通过提供尽可能清晰详细的指令，来获取符合您预期的结果。

更多通义系列模型请参见通义大模型。

模型体验

您可以在模型体验中心试用通义千问模型。

应用场景

通义千问凭借其强大的语言及多模态数据处理能力，为用户带来高效、智能的语言服务体验，其能力包括但不限于文字创作、翻译服务和对话模拟等，具体应用场景如下：

文字创作：撰写故事、公文、邮件、剧本和诗歌等。
文本处理：润色文本和提取文本摘要等。
编程辅助：编写和优化代码等。
翻译服务：提供各类语言的翻译服务，如英语、日语、法语或西班牙语等。
对话模拟：扮演不同角色进行交互式对话。
数据可视化：图表制作和数据呈现等。

文本生成-通义千问

以下为通义千问商业版模型。相比开源版，商业版具有更新的能力和优化。

商业版暂不透出参数规模。

若有高并发需求，建议优先使用稳定版或最新版，限流条件更宽松。

稳定版模型会不定期更新升级。若需使用固定版本，请选择快照版本。

通义千问Max

通义千问系列效果最好的模型，适合复杂、多步骤的任务。使用方法 | API参考 | 在线体验

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	版本	模式	上下文长度	最大输入	最长思维链	最大输出	输入成本	输出成本	免费额度（注）
			（Token数）				（每百万Token）
qwen3-max 当前与qwen3-max-2025-09-23能力相同	稳定版	仅非思考	262,144	258,048	-	65,536	阶梯计价，请参见表格下方说明。		各100万Token 有效期：百炼开通后90天内
qwen3-max-2026-01-23 支持调用内置工具	快照版	思考			81,920
		非思考			-
qwen3-max-2025-09-23	快照版	仅非思考
qwen3-max-preview	预览版	思考			81,920	32,768
		非思考			-	65,536

以上模型根据本次请求的输入 Token数，采取阶梯计费。

模型名称	单次请求的输入Token数	输入单价（每百万Token）	输出单价（每百万Token）思维链+回答
qwen3-max Batch调用半价上下文缓存享有折扣	0<Token≤32K	2.5元	10元
	32K<Token≤128K	4元	16元
	128K<Token≤252K	7元	28元
qwen3-max-2026-01-23	0<Token≤32K	2.5元	10元
	32K<Token≤128K	4元	16元
	128K<Token≤252K	7元	28元
qwen3-max-2025-09-23	0<Token≤32K	6元	24元
	32K<Token≤128K	10元	40元
	128K<Token≤252K	15元	60元
qwen3-max-preview 上下文缓存享有折扣	0<Token≤32K	6元	24元
	32K<Token≤128K	10元	40元
	128K<Token≤252K	15元	60元

更多模型

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每百万Token）
qwen-max 当前与qwen-max-2024-09-19能力相同 Batch调用半价	稳定版	32,768	30,720	8,192	2.4元	9.6元	各100万Token 有效期：百炼开通后90天内
qwen-max-latest 始终与最新快照版能力相同 Batch调用半价	最新版	131,072	129,024
qwen-max-2025-01-25 又称qwen-max-0125、Qwen2.5-Max	快照版
qwen-max-2024-09-19 又称qwen-max-0919		32,768	30,720		20元	60元
qwen-max-2024-04-28 又称qwen-max-0428	快照版	8,000	6,000	2,000	40元	120元
qwen-max-2024-04-03 又称qwen-max-0403

全球

在全球部署模式下，接入点与数据存储均位于美国（弗吉尼亚）地域，模型推理计算资源在全球范围内动态调度。

模型名称	版本	模式	上下文长度	最大输入	最长思维链	最大输出	输入成本	输出成本
			（Token数）				（每百万Token）
qwen3-max 当前与qwen3-max-2025-09-23能力相同	稳定版	仅非思考	262,144	258,048	-	65,536	阶梯计价，请参见表格下方说明。
qwen3-max-2025-09-23	快照版	仅非思考
qwen3-max-preview	预览版	思考			81,920	32,768
		非思考			-	65,536

以上模型根据本次请求的输入 Token数，采取阶梯计费。

单次请求的输入Token数	输入价格（每百万Token） qwen3-max、qwen3-max-preview 支持上下文缓存。	输出价格（每百万Token）
0<Token≤32K	8.807元	44.035元
32K<Token≤128K	17.614元	88.071元
128K<Token≤252K	22.018元	110.089元

国际

在国际部署模式下，接入点与数据存储均位于新加坡地域，模型推理计算资源在全球范围内动态调度（不含中国内地）。

模型名称	版本	模式	上下文长度	最大输入	最长思维链	最大输出	输入成本	输出成本
			（Token数）				（每百万Token）
qwen3-max 当前与qwen3-max-2025-09-23能力相同	稳定版	仅非思考	262,144	258,048	-	65,536	阶梯计价，请参见表格下方说明。
qwen3-max-2026-01-23 支持调用内置工具	快照版	思考			81,920
		非思考			-
qwen3-max-2025-09-23	快照版	仅非思考
qwen3-max-preview	预览版	思考			81,920	32,768
		非思考			-	65,536

以上模型根据本次请求的输入 Token数，采取阶梯计费。

单次请求的输入Token数	输入价格（每百万Token） qwen3-max、qwen3-max-preview 支持上下文缓存。	输出价格（每百万Token）
0<Token≤32K	8.807元	44.035元
32K<Token≤128K	17.614元	88.071元
128K<Token≤252K	22.018元	110.089元

更多模型

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每百万Token）
qwen-max 当前与qwen-max-2025-01-25能力相同 Batch调用半价	稳定版	32,768	30,720	8,192	11.743元	46.971元	无免费额度
qwen-max-latest 始终与最新快照版能力相同	最新版				11.743元	46.971元
qwen-max-2025-01-25 又称qwen-max-0125、Qwen2.5-Max	快照版

金融云

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度
模型名称	版本	（Token数）			（每百万Token）		免费额度
qwen-max	稳定版	8,000	6,000	2,000	38元	114元	100万Token 有效期：百炼开通后90天内

qwen3-max-2026-01-23 模型的思考模式：相较于 2025 年 9 月 23 日的快照版本，有效融合了思考模式与非思考模式，显著提升了模型的整体性能。在思考模式下，模型集成了 Web 搜索、网页信息提取和代码解释器三项工具，通过在思考过程中引入外部工具，在复杂问题上实现更高的准确率。

qwen3-max与qwen3-max-2026-01-23、qwen3-max-2025-09-23模型原生支持search agent，请参见联网搜索。

通义千问Plus

能力均衡，推理效果、成本和速度介于通义千问Max和通义千问Flash之间，适合中等复杂任务。

使用方法 | API参考 | 在线体验｜思考模式

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	版本	模式	上下文长度	最大输入	最长思维链	最大输出	输入成本	输出成本思维链+输出	免费额度（注）
			（Token数）				（每百万Token）
qwen-plus 当前与qwen-plus-2025-12-01能力相同属于Qwen3系列 Batch调用半价	稳定版	思考	1,000,000	995,904	81,920	32,768	阶梯计价，请参见表格下方说明。		各100万Token 有效期：百炼开通后90天内
		非思考		997,952	-
qwen-plus-latest 当前与qwen-plus-2025-12-01能力相同属于Qwen3系列 Batch调用半价	最新版	思考		995,904	81,920
		非思考		997,952	-
qwen-plus-2025-12-01 属于Qwen3系列	快照版	思考		995,904	81,920
		非思考		997,952	-
qwen-plus-2025-09-11 属于Qwen3系列		思考		995,904	81,920
		非思考		997,952	-
qwen-plus-2025-07-28 又称qwen-plus-0728 属于Qwen3系列		思考		995,904	81,920
		非思考		997,952	-
qwen-plus-2025-07-14 又称qwen-plus-0714 属于Qwen3系列		思考	131,072	98,304	38,912	16,384	0.8元	8元
		非思考		129,024	-			2元
qwen-plus-2025-04-28 又称qwen-plus-0428 属于Qwen3系列		思考		98,304	38,912			8元
		非思考		129,024	-			2元

qwen-plus、qwen-plus-latest、qwen-plus-2025-12-01、qwen-plus-2025-09-11和qwen-plus-2025-07-28 根据本次请求输入的 Token数，采取阶梯计费。

单次请求的输入Token数	输入价格（每百万Token）	模式	输出价格（每百万Token）
0<Token≤128K	0.8元	非思考模式	2元
0<Token≤128K	0.8元	思考模式	8元
128K<Token≤256K	2.4元	非思考模式	20元
128K<Token≤256K	2.4元	思考模式	24元
256K<Token≤1M	4.8元	非思考模式	48元
256K<Token≤1M	4.8元	思考模式	64元

上述模型支持思考模式和非思考模式，您可以通过 enable_thinking 参数实现两种模式的切换。除此之外，模型的能力得到了大幅提升：

推理能力：在数学、代码和逻辑推理等评测中，显著超过 QwQ 和同尺寸的非推理模型，达到同规模业界顶尖水平。
人类偏好能力：创意写作、角色扮演、多轮对话、指令遵循能力均大幅提升，通用能力显著超过同尺寸模型。
Agent 能力：在思考、非思考两种模式下都达到业界领先水平，能精准调用外部工具。
多语言能力：支持100多种语言和方言，多语言翻译、指令理解、常识推理能力都明显提升。
回复格式：修复了之前版本存在的回复格式的问题，如异常 Markdown、中间截断、错误输出 boxed 等问题。

对于上述模型，开启思考模式时如果没有输出思考过程，按非思考模式价格进行收费。

更多模型

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每百万Token）
qwen-plus-2025-01-25 又称qwen-plus-0125	快照版	131,072	129,024	8,192	0.8元	2元	各100万Token 有效期：百炼开通后90天内
qwen-plus-2025-01-12 又称qwen-plus-0112
qwen-plus-2024-12-20 又称qwen-plus-1220
qwen-plus-2024-11-27 又称qwen-plus-1127
qwen-plus-2024-11-25 又称qwen-plus-1125
qwen-plus-2024-09-19 又称qwen-plus-0919
qwen-plus-2024-08-06 又称qwen-plus-0806			128,000		4元	12元
qwen-plus-2024-07-23 又称qwen-plus-0723		32,000	30,000	8,000

全球

在全球部署模式下，接入点与数据存储均位于美国（弗吉尼亚）地域，模型推理计算资源在全球范围内动态调度。

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每百万Token）
qwen-plus 当前与qwen-plus-2025-12-01能力相同属于Qwen3系列	稳定版	1,000,000	思考模式 995,904 非思考模式 997,952	32,768 思维链最长81,920	阶梯计价，请参见表格下方说明。		无免费额度
qwen-plus-2025-12-01 属于Qwen3系列	快照版		思考模式 995,904 非思考模式 997,952

qwen-plus-2025-09-11 属于Qwen3系列
qwen-plus-2025-07-28 又称qwen-plus-0728 属于Qwen3系列

以上模型根据本次请求输入的 Token数，采取阶梯计费。

单次请求的输入Token数	输入价格（每百万Token）	模式	输出价格（每百万Token）
0<Token≤256K	2.936元	非思考模式	8.807元
0<Token≤256K	2.936元	思考模式	29.357元
256K<Token≤1M	8.807元	非思考模式	26.421元
256K<Token≤1M	8.807元	思考模式	88.071元

国际

在国际部署模式下，接入点与数据存储均位于新加坡地域，模型推理计算资源在全球范围内动态调度（不含中国内地）。

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每百万Token）
qwen-plus 当前与qwen-plus-2025-12-01能力相同属于Qwen3系列 Batch调用半价	稳定版	1,000,000	思考模式 995,904 非思考模式 997,952	32,768 思维链最长81,920	阶梯计价，请参见表格下方说明。		无免费额度
qwen-plus-latest 当前与qwen-plus-2025-12-01能力相同属于Qwen3系列	最新版		思考模式 995,904 非思考模式 997,952
qwen-plus-2025-12-01 属于Qwen3系列	快照版		思考模式 995,904 非思考模式 997,952

qwen-plus-2025-09-11 属于Qwen3系列
qwen-plus-2025-07-28 又称qwen-plus-0728 属于Qwen3系列
qwen-plus-2025-07-14 又称qwen-plus-0714 属于Qwen3系列		131,072	思考模式 98,304 非思考模式 129,024	16,384 思维链最长38,912	2.936元	思考模式 29.357元非思考模式 8.807元
qwen-plus-2025-04-28 又称qwen-plus-0428 属于Qwen3系列
qwen-plus-2025-01-25 又称qwen-plus-0125			129,024	8,192		8.807元

qwen-plus、qwen-plus-latest、qwen-plus-2025-12-01、qwen-plus-2025-09-11和qwen-plus-2025-07-28 根据本次请求输入的 Token数，采取阶梯计费。

单次请求的输入Token数	输入价格（每百万Token）	模式	输出价格（每百万Token）
0<Token≤256K	2.936元	非思考模式	8.807元
0<Token≤256K	2.936元	思考模式	29.357元
256K<Token≤1M	8.807元	非思考模式	26.421元
256K<Token≤1M	8.807元	思考模式	88.071元

美国

在美国部署模式下，接入点与数据存储均位于美国（弗吉尼亚）地域，模型推理计算资源仅限于美国境内。

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每百万Token）
qwen-plus-us 当前与 qwen-plus-2025-12-01-us 能力相同属于Qwen3系列	稳定版	1,000,000	思考模式 995,904 非思考模式 997,952	32,768 思维链最长81,920	阶梯计价，请参见表格下方说明。		无
qwen-plus-2025-12-01-us 属于Qwen3系列	快照版		思考模式 995,904 非思考模式 997,952

以上模型根据本次请求输入的 Token数采取阶梯计费，其中qwen-plus-us支持上下文缓存。

单次请求的输入Token数	输入价格（每百万Token）	模式	输出价格（每百万Token）
0<Token≤256K	2.936元	非思考模式	8.807元
0<Token≤256K	2.936元	思考模式	29.357元
256K<Token≤1M	8.807元	非思考模式	26.421元
256K<Token≤1M	8.807元	思考模式	88.071元

金融云

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

（Token数）

（每百万Token）

qwen-plus

稳定版

131,072

128,000

8,192

1.52元

3.8元

100万Token

有效期：百炼开通后90天内

通义千问Flash

通义千问系列速度最快、成本极低的模型，适合简单任务。通义千问Flash采用灵活的阶梯定价，相比通义千问Turbo计费更合理。使用方法 | API参考 | 在线体验 | 思考模式

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	版本	模式	上下文长度	最大输入	最长思维链	最大输出	输入成本	输出成本思维链+输出	免费额度（注）
			（Token数）				（每百万Token）
qwen-flash 当前与 qwen-flash-2025-07-28能力相同属于Qwen3系列 Batch调用半价	稳定版	思考	1,000,000	995,904	81,920	32,768	阶梯计价，请参见表格下方说明。		各100万Token 有效期：百炼开通后90天内
		非思考		997,952	-
qwen-flash-2025-07-28 属于Qwen3系列	快照版	思考		995,904	81,920
		非思考		997,952	-

以上模型根据本次请求输入的 Token数采取阶梯计费，其中qwen-flash支持缓存和 Batch调用。

单次请求的输入Token数	输入价格（每百万Token）	输出价格（每百万Token）
0<Token≤128K	0.15元	1.5元
128K<Token≤256K	0.6元	6元
256K<Token≤1M	1.2元	12元

上述模型均支持思考模式和非思考模式，可通过 enable_thinking 参数实现两种模式的切换。

全球

在全球部署模式下，接入点与数据存储均位于美国（弗吉尼亚）地域，模型推理计算资源在全球范围内动态调度。

模型名称	版本	模式	上下文长度	最大输入	最长思维链	最大输出	输入成本	输出成本思维链+输出	免费额度（注）
			（Token数）				（每百万Token）
qwen-flash 当前与 qwen-flash-2025-07-28能力相同属于Qwen3系列	稳定版	思考	1,000,000	995,904	81,920	32,768	阶梯计价，请参见表格下方说明。		各100万Token 有效期：百炼开通后90天内
		非思考		997,952	-
qwen-flash-2025-07-28 属于Qwen3系列	快照版	思考		995,904	81,920
		非思考		997,952	-

以上模型根据本次请求输入的 Token数采取阶梯计费，其中qwen-flash支持缓存。

单次请求的输入Token数	输入价格（每百万Token）	输出价格（每百万Token）
0<Token≤256K	0.367元	2.936元
256K<Token≤1M	1.835元	14.678元

上述模型均支持思考模式和非思考模式，可通过 enable_thinking 参数实现两种模式的切换。

国际

在国际部署模式下，接入点与数据存储均位于新加坡地域，模型推理计算资源在全球范围内动态调度（不含中国内地）。

模型名称	版本	模式	上下文长度	最大输入	最长思维链	最大输出	输入成本	输出成本思维链+输出	免费额度（注）
			（Token数）				（每百万Token）
qwen-flash 当前与 qwen-flash-2025-07-28能力相同属于Qwen3系列	稳定版	思考	1,000,000	995,904	81,920	32,768	阶梯计价，请参见表格下方说明。		各100万Token 有效期：百炼开通后90天内
		非思考		997,952	-
qwen-flash-2025-07-28 属于Qwen3系列	快照版	思考		995,904	81,920
		非思考		997,952	-

以上模型根据本次请求输入的 Token数采取阶梯计费，其中qwen-flash支持缓存。

单次请求的输入Token数	输入价格（每百万Token）	输出价格（每百万Token）
0<Token≤256K	0.367元	2.936元
256K<Token≤1M	1.835元	14.678元

上述模型均支持思考模式和非思考模式，可通过 enable_thinking 参数实现两种模式的切换。

美国

在美国部署模式下，接入点与数据存储均位于美国（弗吉尼亚）地域，模型推理计算资源仅限于美国境内。

模型名称	版本	模式	上下文长度	最大输入	最长思维链	最大输出	输入成本	输出成本思维链+输出	免费额度（注）
			（Token数）				（每百万Token）
qwen-flash-us 当前与 qwen-flash-2025-07-28-us能力相同属于Qwen3系列	稳定版	思考	1,000,000	995,904	81,920	32,768	阶梯计价，请参见表格下方说明。		各100万Token 有效期：百炼开通后90天内
		非思考		997,952	-
qwen-flash-2025-07-28-us 属于Qwen3系列	快照版	思考		995,904	81,920
		非思考		997,952	-

以上模型根据本次请求输入的 Token数采取阶梯计费，其中qwen-flash支持缓存。

单次请求的输入Token数	输入价格（每百万Token）	输出价格（每百万Token）
0<Token≤256K	0.367元	2.936元
256K<Token≤1M	1.835元	14.678元

上述模型均支持思考模式和非思考模式，可通过 enable_thinking 参数实现两种模式的切换。

通义千问Turbo

通义千问Turbo 后续不再更新，建议替换为通义千问Flash。通义千问Flash采用灵活的阶梯定价，计费更合理。使用方法 | API参考 | 在线体验｜思考模式

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每百万Token）
qwen-turbo 当前与 qwen-turbo-2025-04-28能力相同属于Qwen3系列 Batch调用半价	稳定版	思考模式 131,072 非思考模式 1,000,000	思考模式 98,304 非思考模式 1,000,000	16,384 思维链最长38,912	0.3元	思考模式 3元非思考模式 0.6元	各100万Token 有效期：百炼开通后90天内
qwen-turbo-latest 始终与最新快照版能力相同属于Qwen3系列 Batch调用半价	最新版
qwen-turbo-2025-07-15 又称qwen-turbo-0715 属于Qwen3系列	快照版
qwen-turbo-2025-04-28 又称qwen-turbo-0428 属于Qwen3系列

国际

在国际部署模式下，接入点与数据存储均位于新加坡地域，模型推理计算资源在全球范围内动态调度（不含中国内地）。

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每百万Token）
qwen-turbo 当前与qwen-turbo-2025-04-28能力相同属于Qwen3系列 Batch调用半价	稳定版	思考模式 131,072 非思考模式 1,000,000	思考模式 98,304 非思考模式 1,000,000	16,384 思维链最长38,912	0.367元	思考模式：3.67元非思考模式：1.468元	无免费额度
qwen-turbo-latest 始终与最新快照版能力相同属于Qwen3系列	最新版				0.367元	思考模式：3.67元非思考模式：1.468元
qwen-turbo-2025-04-28 又称qwen-turbo-0428 属于Qwen3系列	快照版
qwen-turbo-2024-11-01 又称qwen-turbo-1101		1,000,000	1,000,000	8,192		1.468元

上述模型均支持思考模式和非思考模式，可通过 enable_thinking 参数实现两种模式的切换。开启思考模式时如果没有输出思考过程，按非思考模式价格进行收费。

更多模型

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每百万Token）
qwen-turbo-2025-02-11 又称qwen-turbo-0211	快照版	1,000,000	1,000,000	8,192	0.3元	0.6元	各100万Token 有效期：百炼开通后90天内
qwen-turbo-2024-11-01 又称qwen-turbo-1101							1000万Token 有效期：百炼开通后90天内
qwen-turbo-2024-09-19 又称qwen-turbo-0919		131,072	129,024				各100万Token 有效期：百炼开通后90天内
qwen-turbo-2024-06-24 又称qwen-turbo-0624		8,000	6,000	2,000	2元	6元

QwQ

基于 Qwen2.5 模型训练的 QwQ 推理模型，通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标（AIME 24/25、LiveCodeBench）以及部分通用指标（IFEval、LiveBench等）达到DeepSeek-R1 满血版水平。使用方法

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	版本	上下文长度	最大输入	最大思维链长度	最大回复长度	输入成本	输出成本思维链+输出	免费额度（注）
		（Token数）				（每百万Token）
qwq-plus 当前与qwq-plus-2025-03-05能力相同 Batch调用半价	稳定版	131,072	98,304	32,768	8,192	1.6元	4元	各100万 Token 有效期：百炼开通后90天内
qwq-plus-latest 始终与最新快照版能力相同	最新版					1.6元	4元
qwq-plus-2025-03-05 又称qwq-plus-0305	快照版

国际

在国际部署模式下，接入点与数据存储均位于新加坡地域，模型推理计算资源在全球范围内动态调度（不含中国内地）。

模型名称

版本

上下文长度

最大输入

最大思维链长度

最大回复长度

输入成本

输出成本

免费额度

（注）

（Token数）

（每百万Token）

qwq-plus

稳定版

131,072

98,304

32,768

8,192

5.871元

17.614元

无免费额度

通义千问Long

通义千问系列上下文窗口最长，能力均衡且成本较低的模型，适合长文本分析、信息抽取、总结摘要和分类打标等任务。使用方法 | 在线体验

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每百万Token）
qwen-long Batch调用半价	稳定版	10,000,000	10,000,000	32,768	0.5元	2元	各100万Token 有效期：百炼开通后90天内
qwen-long-latest 始终与最新快照版能力相同 Batch调用半价	最新版
qwen-long-2025-01-25 又称qwen-long-0125	快照版				0.5元	2元

通义千问Omni

Qwen-Omni 模型能够接收文本、图片、音频、视频等多种模态的组合输入，并生成文本或语音形式的回复，提供多种拟人音色，支持多语言和方言的语音输出，可应用于文本创作、视觉识别、语音助手等场景。使用方法｜API 参考

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	版本	模式	上下文长度	最大输入	最长思维链	最大输出	免费额度（注）
			（Token数）
qwen3-omni-flash 当前与qwen3-omni-flash-2025-12-01能力相同	稳定版	思考模式	65,536	16,384	32,768	16,384	各100万Token（不区分模态）有效期：百炼开通后90天内
		非思考模式		49,152	-
qwen3-omni-flash-2025-12-01	快照版	思考模式	65,536	16,384	32,768	16,384
		非思考模式		49,152	-
qwen3-omni-flash-2025-09-15 又称qwen3-omni-flash-0915		思考模式	65,536	16,384	32,768	16,384
		非思考模式		49,152	-

免费额度用完后，输入与输出的计费规则如下，思考与非思考模式的计费相同，且思考模式下不支持输出音频。

输入计费项	单价（每百万Token）
输入：文本	1.8元
输入：音频	15.8元
输入：图片/视频	3.3元

输出计费项

单价（每百万Token）

输出：文本

6.9元（输入仅包含文本时）

12.7元（输入包含图片/视频/音频时）

输出：文本+音频

思考模式下无此项计费

62.6元（音频）

输出的文本不计费。

更多模型

模型名称	版本	上下文长度	最大输入	最大输出	免费额度（注）
		（Token数）
qwen-omni-turbo 当前与qwen-omni-turbo-2025-03-26能力相同 Batch调用半价	稳定版	32,768	30,720	2,048	各100万Token（不区分模态）有效期：百炼开通后90天内
qwen-omni-turbo-latest 始终与最新快照版能力相同	最新版
qwen-omni-turbo-2025-03-26 又称qwen-omni-turbo-0326	快照版
qwen-omni-turbo-2025-01-19 又称qwen-omni-turbo-0119

免费额度用完后，输入与输出的计费规则如下，思考与非思考模式的计费相同，且思考模式下不支持输出音频。

输入计费项	单价（每百万Token）
输入：文本	0.4元
输入：音频	25元
输入：图片/视频	1.5元

输出计费项

单价（每百万Token）

输出：文本

1.6元（输入仅包含文本时）

4.5元（输入包含图片/视频/音频时）

输出：文本+音频

思考模式下无此项计费

50元（音频）

输出的文本不计费。

国际

在国际部署模式下，接入点与数据存储均位于新加坡地域，模型推理计算资源在全球范围内动态调度（不含中国内地）。

模型名称	版本	模式	上下文长度	最大输入	最长思维链	最大输出	免费额度（注）
			（Token数）
qwen3-omni-flash 当前与qwen3-omni-flash-2025-12-01能力相同	稳定版	思考模式	65,536	16,384	32,768	16,384	无免费额度
		非思考模式		49,152	-
qwen3-omni-flash-2025-12-01	快照版	思考模式	65,536	16,384	32,768	16,384
		非思考模式		49,152	-
qwen3-omni-flash-2025-09-15 又称qwen3-omni-flash-0915	快照版	思考模式	65,536	16,384	32,768	16,384
		非思考模式		49,152	-

免费额度用完后，输入与输出的计费规则如下，思考与非思考模式的计费相同，且思考模式下不支持输出音频。

输入计费项	单价（每百万Token）
输入：文本	3.156元
输入：音频	27.962元
输入：图片/视频	5.725元

输出计费项

单价（每百万Token）

输出：文本

12.183元（输入仅包含文本时）

22.458元（输入包含图片/视频/音频时）

输出：文本+音频

110.896元（音频）

输出的文本不计费。

更多模型

模型名称	版本	上下文长度	最大输入	最大输出	免费额度（注）
		（Token数）
qwen-omni-turbo 当前与qwen-omni-turbo-2025-03-26能力相同	稳定版	32,768	30,720	2,048	无免费额度
qwen-omni-turbo-latest 始终与最新快照版能力相同	最新版
qwen-omni-turbo-2025-03-26 又称qwen-omni-turbo-0326	快照版

商业版模型的免费额度用完后，输入与输出的计费规则如下：

输入计费项	单价（每百万Token）
输入：文本	0.514元
输入：音频	32.586元
输入：图片/视频	1.541元

输出计费项

单价（每百万Token）

输出：文本

1.982元（输入仅包含文本时）

4.624元（输入包含图片/视频/音频时）

输出：文本+音频

65.246元（音频）

输出的文本不计费。

建议优先使用Qwen3-Omni-Flash模型，相较于Qwen-Omni-Turbo（后续不再更新），模型的能力得到大幅提升：

属于混合思考模型，支持思考模式和非思考模式，可通过 enable_thinking 参数实现两种模式的切换，默认不开启思考模式。
思考模式下不支持输出音频；在非思考模式下，对于模型输出的音频：
- qwen3-omni-flash-2025-12-01支持的音色增加至49种，qwen3-omni-flash-2025-09-15、qwen3-omni-flash支持的音色增加至 17 种，Qwen-Omni-Turbo 仅支持 4 种；
- 支持语言增加至 10 种，Qwen-Omni-Turbo 仅支持 2 种。

通义千问Omni-Realtime

相比于通义千问Omni，支持音频的流式输入，且内置 VAD（Voice Activity Detection，语音活动检测）功能，可自动检测用户语音的开始和结束。使用方法｜客户端事件｜服务端事件｜在线体验

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	版本	上下文长度	最大输入	最大输出	免费额度（注）
		（Token数）
qwen3-omni-flash-realtime 当前与qwen3-omni-flash-realtime-2025-12-01能力相同	稳定版	65,536	49,152	16,384	各100万Token（不区分模态）有效期：百炼开通后90天内
qwen3-omni-flash-realtime-2025-12-01	快照版
qwen3-omni-flash-realtime-2025-09-15

免费额度用完后，输入与输出的计费规则如下：

输入计费项	单价（每百万Token）
输入：文本	2.2元
输入：音频	18.9元
输入：图片	3.9元

输出计费项

单价（每百万Token）

输出：文本

8.3元（输入仅包含文本时）

15.2元（输入包含图片/音频时）

输出：文本+音频

75.1元（音频）

输出的文本不计费。

更多模型

模型名称	版本	上下文长度	最大输入	最大输出	免费额度（注）
		（Token数）
qwen-omni-turbo-realtime 当前能力等同 qwen-omni-turbo-realtime-2025-05-08	稳定版	32,768	30,720	2,048	各100万Token（不区分模态）有效期：百炼开通后90天内
qwen-omni-turbo-realtime-latest 能力始终等同最新快照版	最新版
qwen-omni-turbo-realtime-2025-05-08	快照版

免费额度用完后，输入与输出的计费规则如下：

输入计费项	单价（每百万Token）
输入：文本	1.6元
输入：音频	25元
输入：图片	6元

输出计费项

单价（每百万Token）

输出：文本

6.4元（输入仅包含文本时）

18元（输入包含图片/音频时）

输出：文本+音频

50元（音频）

输出的文本不计费。

国际

在国际部署模式下，接入点与数据存储均位于新加坡地域，模型推理计算资源在全球范围内动态调度（不含中国内地）。

模型名称	版本	上下文长度	最大输入	最大输出	免费额度（注）
		（Token数）
qwen3-omni-flash-realtime 当前与qwen3-omni-flash-realtime-2025-12-01能力相同	稳定版	65,536	49,152	16,384	无免费额度
qwen3-omni-flash-realtime-2025-12-01	快照版
qwen3-omni-flash-realtime-2025-09-15

免费额度用完后，输入与输出的计费规则如下：

输入计费项	单价（每百万Token）
输入：文本	3.816元
输入：音频	33.54元
输入：图片	6.899元

输出计费项

单价（每百万Token）

输出：文本

14.605元（输入仅包含文本时）

26.935元（输入包含图片/音频时）

输出：文本+音频

133.06元（音频）

输出的文本不计费。

更多模型

模型名称	版本	上下文长度	最大输入	最大输出	免费额度（注）
		（Token数）
qwen-omni-turbo-realtime 当前能力等同 qwen-omni-turbo-realtime-2025-05-08	稳定版	32,768	30,720	2,048	无免费额度
qwen-omni-turbo-realtime-latest 能力始终等同最新快照版	最新版
qwen-omni-turbo-realtime-2025-05-08	快照版

输入与输出的计费规则如下：

输入计费项	单价（每百万Token）
输入：文本	1.982元
输入：音频	32.586元
输入：图片	6.165元

输出计费项

单价（每百万Token）

输出：文本

7.853元（输入仅包含文本时）

18.495元（输入包含图片/音频时）

输出：文本+音频

65.246元（音频）

输出的文本不计费。

建议优先使用Qwen3-Omni-Flash-Realtime 模型，相较于Qwen-Omni-Turbo-Realtime（后续不再更新），模型的能力得到大幅提升。对于模型输出的音频：

qwen3-omni-flash-realtime-2025-12-01支持的音色增加至49种，qwen3-omni-flash-realtime-2025-09-15、qwen3-omni-realtime-flash支持的音色增加至 17 种，Qwen-Omni-Turbo-Realtime 仅支持 4 种
支持的语言增加至 10 种，Qwen-Omni-Turbo-Realtime 仅支持 2 种

QVQ

QVQ是视觉推理模型，支持视觉输入及思维链输出，在数学、编程、视觉分析、创作以及通用任务上都表现了更强的能力。使用方法 | 在线体验

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	版本	上下文长度	最大输入	最大思维链长度	最大回复长度	输入成本	输出成本	免费额度（注）
		（Token数）				（每百万Token）
qvq-max 相比 qvq-plus 具有更强的视觉推理和指令遵循能力，在更多复杂任务中提供最佳性能。当前与qvq-max-2025-03-25能力相同	稳定版	131,072	106,496 单图最大16384	16,384	8,192	8元	32元	各100万 Token 有效期：百炼开通后90天内
qvq-max-latest 始终与最新快照版能力相同	最新版
qvq-max-2025-05-15 又称qvq-max-0515	快照版
qvq-max-2025-03-25 又称qvq-max-0325
qvq-plus 当前与qvq-plus-2025-05-15能力相同	稳定版					2元	5元
qvq-plus-latest 始终与最新快照版能力相同	最新版
qvq-plus-2025-05-15 又称qvq-plus-0515	快照版

国际

在美国部署模式下，接入点与数据存储均位于美国（弗吉尼亚）地域，模型推理计算资源仅限于美国境内。

模型名称	版本	上下文长度	最大输入	最大思维链长度	最大回复长度	输入成本	输出成本	免费额度（注）
		（Token数）				（每百万Token）
qvq-max 当前与 qvq-max-2025-03-25能力相同	稳定版	131,072	106,496 单图最大16384	16,384	8,192	8.807元	35.228元	无免费额度
qvq-max-latest 始终与最新快照版能力相同	最新版
qvq-max-2025-03-25 又称qvq-max-0325	快照版

通义千问VL

通义千问VL是具有视觉（图像）理解能力的文本生成模型，不仅能进行OCR（图片文字识别），还能进一步总结和推理，例如从商品照片中提取属性，根据习题图进行解题等。使用方法 | API参考 | 在线体验

通义千问VL模型按输入和输出的总Token数进行计费。图像Token的计算规则视觉理解。

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	版本	模式	上下文长度	最大输入	最长思维链	最大输出	输入成本	输出成本思维链+输出	免费额度（注）
			（Token数）				（每百万Token）
qwen3-vl-plus 当前与qwen3-vl-plus-2025-09-23能力相同 Batch调用半价	稳定版	思考	262,144	258,048 单图最大16384	81,920	32,768	阶梯计价，请参见表格下方说明。		各100万Token 有效期：百炼开通后90天内
		非思考		260,096 单图最大16384	-
qwen3-vl-plus-2025-12-19	快照版	思考		258,048 单图最大16384	81,920
		非思考		260,096 单图最大16384	-
qwen3-vl-plus-2025-09-23	快照版	思考		258,048 单图最大16384	81,920
		非思考		260,096 单图最大16384	-
qwen3-vl-flash 当前与qwen3-vl-flash-2025-10-15能力相同 Batch调用半价	稳定版	思考		258,048 单图最大16384	81,920
		非思考		260,096 单图最大16384	-
qwen3-vl-flash-2026-01-22	快照版	思考		258,048 单图最大16384	81,920
		非思考		260,096 单图最大16384	-
qwen3-vl-flash-2025-10-15	快照版	思考		258,048 单图最大16384	81,920
		非思考		260,096 单图最大16384	-

以上模型根据本次请求输入的 Token数，采取阶梯计费。思考模式与非思考模式的输入输出价格相同。

qwen3-vl-plus系列

单次请求的输入Token数	输入价格（每百万Token）	输出价格（每百万Token）
0<Token≤32K	1元	10元
32K<Token≤128K	1.5元	15元
128K<Token≤256K	3元	30元

qwen3-vl-flash系列

单次请求的输入Token数	输入价格（每百万Token）	输出价格（每百万Token）
0<Token≤32K	0.15元	1.5元
32K<Token≤128K	0.3元	3元
128K<Token≤256K	0.6元	6元

更多模型

通义千问VL-Max系列

qwen-vl-max-2025-01-25及以后更新的模型均属于Qwen2.5-VL系列。

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每百万Token）
qwen-vl-max 相比qwen-vl-plus再次提升视觉推理和指令遵循能力，在更多复杂任务中提供最佳性能。当前与qwen-vl-max-2025-08-13能力相同 Batch调用半价	稳定版	131,072	129,024 单图最大16384	8,192	1.6元	4元	各100万Token 有效期：百炼开通后90天内
qwen-vl-max-latest 始终与最新快照版能力相同 Batch调用半价	最新版
qwen-vl-max-2025-08-13 又称qwen-vl-max-0813 视觉理解指标全面提升，数学、推理、物体识别、多语言处理能力显著增强。	快照版				1.6元	4元
qwen-vl-max-2025-04-08 又称qwen-vl-max-0408 增强数学和推理能力					3元	9元
qwen-vl-max-2025-04-02 又称qwen-vl-max-0402 显著提高解决复杂数学问题的准确性
qwen-vl-max-2025-01-25 又称qwen-vl-max-0125 升级至Qwen2.5-VL系列，扩展上下文至128k，显著增强图像和视频的理解能力
qwen-vl-max-2024-12-30 又称qwen-vl-max-1230		32,768	30,720 单图最大16384	2,048	3元	9元
qwen-vl-max-2024-11-19 又称qwen-vl-max-1119
qwen-vl-max-2024-10-30 又称qwen-vl-max-1030					20元
qwen-vl-max-2024-08-09 又称qwen-vl-max-0809

通义千问VL-Plus系列

qwen-vl-plus-2025-01-25及以后更新的模型均属于Qwen2.5-VL系列。

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每百万Token）
qwen-vl-plus 当前与qwen-vl-plus-2025-08-15能力相同 Batch调用半价	稳定版	131,072	129,024 单图最大16384	8,192	0.8元	2元	各100万Token 有效期：百炼开通后90天内
qwen-vl-plus-latest 始终与最新快照版能力相同 Batch调用半价	最新版
qwen-vl-plus-2025-08-15 又称qwen-vl-plus-0815 在物体识别与定位、多语言处理的能力上有显著提升	快照版				0.8元	2元
qwen-vl-plus-2025-07-10 又称qwen-vl-plus-0710 进一步提升监控视频内容的理解能力		32,768	30,720 单图最大16384		0.15元	1.5元
qwen-vl-plus-2025-05-07 又称qwen-vl-plus-0507 显著提升数学、推理、监控视频内容的理解能力		131,072	129,024 单图最大16384		1.5元	4.5元
qwen-vl-plus-2025-01-25 又称qwen-vl-plus-0125 升级至Qwen2.5-VL系列，扩展上下文至128k，显著增强图像和视频理解能力
qwen-vl-plus-2025-01-02 又称qwen-vl-plus-0102		32,768	30,720 单图最大16384	2,048	1.5元	4.5元
qwen-vl-plus-2024-08-09 又称qwen-vl-plus-0809

全球

在全球部署模式下，接入点与数据存储均位于美国（弗吉尼亚）地域，模型推理计算资源在全球范围内动态调度。

模型名称	版本	模式	上下文长度	最大输入	最长思维链	最大输出	输入成本	输出成本思维链+输出	免费额度（注）
			（Token数）				（每百万Token）
qwen3-vl-plus 当前与qwen3-vl-plus-2025-09-23能力相同	稳定版	思考	262,144	258,048 单图最大16384	81,920	32,768	阶梯计价，请参见表格下方说明。		无免费额度
		非思考		260,096 单图最大16384	-
qwen3-vl-plus-2025-09-23	快照版	思考		258,048 单图最大16384	81,920
		非思考		260,096 单图最大16384	-
qwen3-vl-flash 当前与qwen3-vl-flash-2025-10-15能力相同	稳定版	思考		258,048 单图最大16384	81,920
		非思考		260,096 单图最大16384	-
qwen3-vl-flash-2025-10-15	快照版	思考		258,048 单图最大16384	81,920
		非思考		260,096 单图最大16384	-

以上模型根据本次请求输入的 Token数，采取阶梯计费。思考模式与非思考模式的输入输出价格相同。

qwen3-vl-plus系列

单次请求的输入Token数	输入价格（每百万Token）	输出价格（每百万Token）
0<Token≤32K	1.468元	11.743元
32K<Token≤128K	2.202元	17.614元
128K<Token≤256K	4.404元	35.228元

qwen3-vl-flash系列

单次请求的输入Token数	输入价格（每百万Token）	输出价格（每百万Token）
0<Token≤32K	0.367元	2.936元
32K<Token≤128K	0.55元	4.404元
128K<Token≤256K	0.881元	7.046元

国际

在国际部署模式下，接入点与数据存储均位于新加坡地域，模型推理计算资源在全球范围内动态调度（不含中国内地）。

模型名称	版本	模式	上下文长度	最大输入	最长思维链	最大输出	输入成本	输出成本思维链+输出	免费额度（注）
			（Token数）				（每百万Token）
qwen3-vl-plus 当前与qwen3-vl-plus-2025-09-23能力相同	稳定版	思考	262,144	258,048 单图最大16384	81,920	32,768	阶梯计价，请参见表格下方说明。	无免费额度
		非思考		260,096 单图最大16384	-
qwen3-vl-plus-2025-12-19	快照版	思考		258,048 单图最大16384	81,920
		非思考		260,096 单图最大16384	-
qwen3-vl-plus-2025-09-23	快照版	思考		258,048 单图最大16384	81,920
		非思考		260,096 单图最大16384	-
qwen3-vl-flash 当前与qwen3-vl-flash-2025-10-15能力相同	稳定版	思考		258,048 单图最大16384	81,920
		非思考		260,096 单图最大16384	-
qwen3-vl-flash-2025-10-15	快照版	思考		258,048 单图最大16384	81,920
		非思考		260,096 单图最大16384	-

以上模型根据本次请求输入的 Token数，采取阶梯计费。思考模式与非思考模式的输入输出价格相同。

qwen3-vl-plus系列

单次请求的输入Token数	输入价格（每百万Token）	输出价格（每百万Token）
0<Token≤32K	1.468元	11.743元
32K<Token≤128K	2.202元	17.614 元
128K<Token≤256K	4.404元	35.228元

qwen3-vl-flash系列

单次请求的输入Token数	输入价格（每百万Token）	输出价格（每百万Token）
0<Token≤32K	0.367元	2.936元
32K<Token≤128K	0.55元	4.404元
128K<Token≤256K	0.881元	7.046元

更多模型

通义千问VL-Max系列

以下模型均属于Qwen2.5-VL系列。

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每百万Token）
qwen-vl-max 相比qwen-vl-plus再次提升视觉推理和指令遵循能力，在更多复杂任务中提供最佳性能。当前与qwen-vl-max-2025-08-13能力相同	稳定版	131,072	129,024 单图最大16384	8,192	5.871元	23.486元	无免费额度
qwen-vl-max-latest 始终与最新快照版能力相同	最新版				5.871元	23.486元
qwen-vl-max-2025-08-13 又称qwen-vl-max-0813 视觉理解指标全面提升，数学、推理、物体识别、多语言处理能力显著增强。	快照版
qwen-vl-max-2025-04-08 又称qwen-vl-max-0408 属于Qwen2.5-VL系列模型，扩展上下文至128k，显著增强数学和推理能力。

通义千问VL-Plus系列

以下模型均属于Qwen2.5-VL系列。

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每百万Token）
qwen-vl-plus 当前与qwen-vl-plus-2025-08-15能力相同	稳定版	131,072	129,024 单图最大16384	8,192	1.541元	4.624元	无免费额度
qwen-vl-plus-latest 始终与最新快照版能力相同	最新版				1.541元	4.624元
qwen-vl-plus-2025-08-15 又称qwen-vl-plus-0815 在物体识别与定位、多语言处理的能力上有显著提升	快照版
qwen-vl-plus-2025-05-07 又称qwen-vl-plus-0507 显著提升数学、推理、监控视频内容的理解能力
qwen-vl-plus-2025-01-25 又称qwen-vl-plus-0125 属于Qwen2.5-VL系列模型，扩展上下文至128k，显著增强图像和视频的理解能力。

qwen3-vl-flash-2026-01-22模型有效融合了思考模式与非思考模式，相较于 2025 年 10 月 15 日的快照版本，显著提升了模型的整体性能，在通用视觉识别、安防、巡店、巡检、拍照解题等业务场景中实现了更高准确率的推理。

美国

在美国部署模式下，接入点与数据存储均位于美国（弗吉尼亚）地域，模型推理计算资源仅限于美国境内。

模型名称	版本	模式	上下文长度	最大输入	最长思维链	最大输出	输入成本	输出成本思维链+输出	免费额度（注）
			（Token数）				（每百万Token）
qwen3-vl-flash-us 当前与qwen3-vl-flash-2025-10-15-us能力相同	稳定版	思考		258,048 单图最大16384	81,920	32,768	阶梯计价，请参见表格下方说明。		无免费额度
		非思考		260,096 单图最大16384	-
qwen3-vl-flash-2025-10-15us	快照版	思考		258,048 单图最大16384	81,920
		非思考		260,096 单图最大16384	-

以上模型根据本次请求输入的 Token数，采取阶梯计费。思考模式与非思考模式的输入输出价格相同。

单次请求的输入Token数	输入价格（每百万Token）	输出价格（每百万Token）
0<Token≤32K	0.367元	2.936元
32K<Token≤128K	0.55元	4.404元
128K<Token≤256K	0.881元	7.046元

qwen3-vl-flash-2026-01-22模型有效融合了思考模式与非思考模式，相较于 2025 年 10 月 15 日的快照版本，显著提升了模型的整体性能，在通用视觉识别、安防、巡店、巡检、拍照解题等业务场景中实现了更高准确率的推理。

通义千问OCR

通义千问OCR模型是专用于文字提取的模型。相较于通义千问VL模型，它更专注于文档、表格、试题、手写体文字等类型图像的文字提取能力。它能够识别多种语言，包括英语、法语、日语、韩语、德语、俄语和意大利语等。使用方法 | API参考｜在线体验

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	版本	上下文长度	最大输入	最大输出	输入单价	输出单价	免费额度（注）
		（Token数）			（每百万Token）
qwen-vl-ocr 当前与qwen-vl-ocr-2025-08-28能力相同 Batch 调用半价	稳定版	34,096	30,000 单图最大30000	4,096	5元	5元	各100万Token 有效期：百炼开通后90天内
qwen-vl-ocr-latest 始终与最新版能力相同 Batch 调用半价	最新版	38,192		8,192	0.3元	0.5元
qwen-vl-ocr-2025-11-20 基于Qwen3-VL架构，大幅提升文档解析、文字定位能力。	快照版
qwen-vl-ocr-2025-08-28 又称qwen-vl-ocr-0828		34,096		4,096	5元	5元
qwen-vl-ocr-2025-04-13 又称qwen-vl-ocr-0413
qwen-vl-ocr-2024-10-28 又称qwen-vl-ocr-1028

全球

在全球部署模式下，接入点与数据存储均位于美国（弗吉尼亚）地域，模型推理计算资源在全球范围内动态调度。

模型名称	版本	上下文长度	最大输入	最大输出	输入单价	输出单价	免费额度（注）
模型名称	版本	（Token数）			（每百万Token）		免费额度（注）
qwen-vl-ocr 当前与qwen-vl-ocr-2025-11-20能力相同	稳定版	34,096	30,000 单图最大30000	4,096	0.514元	1.174元	无免费额度
qwen-vl-ocr-2025-11-20 又称qwen-vl-ocr-1120 基于Qwen3-VL架构，大幅提升文档解析、文字定位能力。	快照版	38,192	30,000 单图最大30000	8,192	0.514元	1.174元	无免费额度

国际

在国际部署模式下，接入点与数据存储均位于新加坡地域，模型推理计算资源在全球范围内动态调度（不含中国内地）。

模型名称	版本	上下文长度	最大输入	最大输出	输入单价	输出单价	免费额度（注）
模型名称	版本	（Token数）			（每百万Token）		免费额度（注）
qwen-vl-ocr	稳定版	34,096	30,000 单图最大30000	4,096	5.284元	5.284元	无免费额度
qwen-vl-ocr-2025-11-20 又称qwen-vl-ocr-1120 基于Qwen3-VL架构，大幅提升文档解析、文字定位能力。	快照版	38,192	30,000 单图最大30000	8,192	0.514元	1.174元	无免费额度

通义千问Audio

通义千问Audio是音频理解模型，支持输入多种音频（人类语音、自然音、音乐、歌声）和文本，并输出文本。该模型不仅能对输入的音频进行转录，还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。使用方法

通义千问Audio模型按输入和输出的总Token数进行计费。

音频转换为Token的规则：每一秒钟的音频对应25个Token。若音频时长不足1秒，则按25个Token计算。

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每百万Token）
qwen-audio-turbo 当前等同qwen-audio-turbo-2024-08-07	稳定版	8,000	6,000	1,500	目前仅供免费体验。免费额度用完后不可调用，推荐使用Qwen-Omni作为替代模型		10万Token 有效期：阿里云百炼开通后90天内
qwen-audio-turbo-latest 始终等同最新快照版	最新版	8,192	6,144	2,048
qwen-audio-turbo-2024-12-04 又称qwen-audio-turbo-1204 较上个快照版本大幅提升语音识别准确率，且新增了语音聊天能力。	快照版
qwen-audio-turbo-2024-08-07 又称qwen-audio-turbo-0807		8,000	6,000	1,500

通义千问数学模型

通义千问数学模型是专门用于数学解题的语言模型。使用方法 | API参考 | 在线体验

说明

仅支持中国内地（北京）地域。

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	输入价格	输出价格	上下文长度	最大输入	最大输出	免费额度（注）
	（每百万Token）		（Token数）
qwen-math-plus	4元	12元	4,096	3,072	3,072	各100万Token 有效期：百炼开通后90天内
qwen-math-turbo	2元	6元

通义千问Coder

通义千问代码模型。最新的 Qwen3-Coder-Plus 系列模型是基于 Qwen3 的代码生成模型，具有强大的Coding Agent能力，擅长工具调用和环境交互，能够实现自主编程，代码能力卓越的同时兼具通用能力。使用方法 | API参考 | 在线体验

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每百万Token）
qwen3-coder-plus 当前与qwen3-coder-plus-2025-09-23能力相同	稳定版	1,000,000	997,952	65,536	阶梯计价，请参见表格下方说明。		各100万Token 有效期：百炼开通后90天内
qwen3-coder-plus-2025-09-23	快照版
qwen3-coder-plus-2025-07-22	快照版
qwen3-coder-flash 当前与qwen3-coder-flash-2025-07-28能力相同	稳定版
qwen3-coder-flash-2025-07-28	快照版

上述模型根据本次请求输入的Token数，采取阶梯计费。

qwen3-coder-plus系列

qwen3-coder-plus、qwen3-coder-plus-2025-09-23和qwen3-coder-plus-2025-07-22价格如下，其中 qwen3-coder-plus 支持上下文缓存，命中隐式缓存的输入文本按单价的 20% 计费，命中显式缓存的输入文本按单价的 10% 计费。

单次请求的输入Token数	输入成本（每百万Token）	输出成本（每百万Token）
0<Token≤32K	4元	16元
32K<Token≤128K	6元	24元
128K<Token≤256K	10元	40元
256K<Token≤1M	20元	200元

qwen3-coder-flash系列

qwen3-coder-flash 和 qwen3-coder-flash-2025-07-28 价格如下，其中 qwen3-coder-flash 支持上下文缓存，命中隐式缓存的输入文本按单价的 20% 计费，命中显式缓存的输入文本按单价的 10% 计费。

单次请求的输入Token数	输入成本（每百万Token）	输出成本（每百万Token）
0<Token≤32K	1元	4元
32K<Token≤128K	1.5元	6元
128K<Token≤256K	2.5元	10元
256K<Token≤1M	5元	25元

更多模型

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每百万Token）
qwen-coder-plus 当前与qwen-coder-plus-2024-11-06能力相同	稳定版	131,072	129,024	8,192	3.5元	7元	各100万Token 有效期：百炼开通后90天内
qwen-coder-plus-latest 与qwen-coder-plus的最新快照版能力相同	最新版
qwen-coder-plus-2024-11-06 又称qwen-coder-plus-1106	快照版
qwen-coder-turbo 当前与qwen-coder-turbo-2024-09-19能力相同	稳定版	131,072	129,024	8,192	2元	6元
qwen-coder-turbo-latest 与qwen-coder-turbo的最新快照版能力相同	最新版
qwen-coder-turbo-2024-09-19 又称qwen-coder-turbo-0919	快照版

全球

在全球部署模式下，接入点与数据存储均位于美国（弗吉尼亚）地域，模型推理计算资源在全球范围内动态调度。

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每百万Token）
qwen3-coder-plus 当前与qwen3-coder-plus-2025-09-23能力相同	稳定版	1,000,000	997,952	65,536	阶梯计价，请参见表格下方说明。		无免费额度
qwen3-coder-plus-2025-09-23	快照版
qwen3-coder-plus-2025-07-22	快照版
qwen3-coder-flash 当前与qwen3-coder-flash-2025-07-28能力相同	稳定版
qwen3-coder-flash-2025-07-28	快照版

上述模型根据本次请求输入的Token数，采取阶梯计费。

qwen3-coder-plus系列

qwen3-coder-plus、qwen3-coder-plus-2025-09-23 和 qwen3-coder-plus-2025-07-22 价格如下，其中 qwen3-coder-plus 支持上下文缓存，命中隐式缓存的输入文本按单价的 20% 计费，命中显式缓存的输入文本按单价的 10% 计费。

单次请求的输入Token数	输入成本（每百万Token）	输出成本（每百万Token）
0<Token≤32K	7.339元	36.696元
32K<Token≤128K	13.211元	66.053元
128K<Token≤256K	22.018元	110.089元
256K<Token≤1M	44.035元	440.354元

qwen3-coder-flash系列

单次请求的输入Token数	输入成本（每百万Token）	输出成本（每百万Token）
0<Token≤32K	2.202元	11.009元
32K<Token≤128K	3.67元	18.348元
128K<Token≤256K	5.871元	29.357元
256K<Token≤1M	11.743元	70.457元

国际

在国际部署模式下，接入点与数据存储均位于新加坡地域，模型推理计算资源在全球范围内动态调度（不含中国内地）。

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每百万Token）
qwen3-coder-plus 当前与qwen3-coder-plus-2025-09-23能力相同	稳定版	1,000,000	997,952	65,536	阶梯计价，请参见表格下方说明。		无免费额度
qwen3-coder-plus-2025-09-23	快照版
qwen3-coder-plus-2025-07-22	快照版
qwen3-coder-flash 当前与qwen3-coder-flash-2025-07-28能力相同	稳定版
qwen3-coder-flash-2025-07-28	快照版

上述模型根据本次请求输入的Token数，采取阶梯计费。

qwen3-coder-plus系列

qwen3-coder-plus、qwen3-coder-plus-2025-09-23 和 qwen3-coder-plus-2025-07-22 价格如下，其中 qwen3-coder-plus 支持上下文缓存，命中隐式缓存的输入文本按单价的 20% 计费，命中显式缓存的输入文本按单价的 10% 计费。

单次请求的输入Token数	输入成本（每百万Token）	输出成本（每百万Token）
0<Token≤32K	7.339元	36.696元
32K<Token≤128K	13.211元	66.053元
128K<Token≤256K	22.018元	110.089元
256K<Token≤1M	44.035元	440.354元

qwen3-coder-flash系列

单次请求的输入Token数	输入成本（每百万Token）	输出成本（每百万Token）
0<Token≤32K	2.202元	11.009元
32K<Token≤128K	3.67元	18.348元
128K<Token≤256K	5.871元	29.357元
256K<Token≤1M	11.743元	70.457元

通义千问翻译模型

基于 Qwen 3全面升级的旗舰级翻译大模型，支持92个语种（包括中、英、日、韩、法、西、德、泰、印尼、越、阿等）互译，模型性能和翻译效果全面升级，提供更稳定的术语定制、格式还原度、领域提示能力，让译文更精准、自然。使用方法 | 在线体验

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每百万Token）
qwen-mt-plus 属于Qwen3-MT	16,384	8,192	8,192	1.8元	5.4元	各100万Token 有效期：百炼开通后90天内
qwen-mt-flash 属于Qwen3-MT				0.7元	1.95元
qwen-mt-lite 属于Qwen3-MT				0.6元	1.6元
qwen-mt-turbo 属于Qwen3-MT				0.7元	1.95元

全球

在全球部署模式下，接入点与数据存储均位于美国（弗吉尼亚）地域，模型推理计算资源在全球范围内动态调度。

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每百万Token）
qwen-mt-plus 属于Qwen3-MT	16,384	8,192	8,192	18.055元	54.09元	无免费额度
qwen-mt-flash 属于Qwen3-MT				1.174元	3.596元
qwen-mt-lite 属于Qwen3-MT				0.881元	2.642元

国际

在国际部署模式下，接入点与数据存储均位于新加坡地域，模型推理计算资源在全球范围内动态调度（不含中国内地）。

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每百万Token）
qwen-mt-plus 属于Qwen3-MT	16,384	8,192	8,192	18.055元	54.09元	无免费额度
qwen-mt-flash 属于Qwen3-MT				1.174元	3.596元
qwen-mt-lite 属于Qwen3-MT				0.881元	2.642元
qwen-mt-turbo 属于Qwen3-MT				1.174元	3.596元

通义千问数据挖掘模型

通义千问数据挖掘模型可以提取文档中的结构化信息并用于数据标注和内容审核等领域。使用方法 | API参考

说明

仅支持中国内地（北京）地域。

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度
模型名称	（Token数）			（每百万Token）		免费额度
qwen-doc-turbo	262,144	253,952	32,768	0.6元	1元	无免费额度

通义千问深入研究模型

通义千问深入研究模型可以拆解复杂问题，结合互联网搜索进行推理分析并生成研究报告。使用方法 | API参考

说明

仅支持中国内地（北京）地域。

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度
模型名称	（Token数）			（每百万Token）		免费额度
qwen-deep-research	1,000,000	997,952	32,768	54元	163元	无免费额度

文本生成-通义千问-开源版

模型名称中，xxb表示参数规模，例如qwen2-72b-instruct表示参数规模为72B，即720亿。
百炼支持调用通义千问的开源版，您无需本地部署模型。对于开源版，建议使用Qwen3模型。

Qwen3

2025 年 9月发布的 qwen3-next-80b-a3b-thinking 仅支持思考模式，相较于qwen3-235b-a22b-thinking-2507提升了指令遵循能力，总结回复更加精简。

2025 年 9月发布的 qwen3-next-80b-a3b-instruct 仅支持非思考模式，相较于qwen3-235b-a22b-instruct-2507增强了中文理解、逻辑推理及文本生成能力。

2025 年 7月发布的 qwen3-235b-a22b-thinking-2507、qwen3-30b-a3b-thinking-2507 模型仅支持思考模式，是qwen3-235b-a22b（思考模式）与qwen3-30b-a3b （思考模式）的升级版。

2025 年 7月发布的 qwen3-235b-a22b-instruct-2507、qwen3-30b-a3b-instruct-2507 模型仅支持非思考模式，是qwen3-235b-a22b（非思考模式）与qwen3-30b-a3b （非思考模式）的升级版。

2025 年 4月发布的 Qwen3 模型支持思考模式和非思考模式，您可以通过 enable_thinking 参数实现两种模式的切换。除此之外，Qwen3 模型的能力得到了大幅提升：

推理能力：在数学、代码和逻辑推理等评测中，显著超过 QwQ 和同尺寸的非推理模型，达到同规模业界顶尖水平。
人类偏好能力：创意写作、角色扮演、多轮对话、指令遵循能力均大幅提升，通用能力显著超过同尺寸模型。
Agent 能力：在推理、非推理两种模式下都达到业界领先水平，能精准调用外部工具。

多语言能力：支持100多种语言和方言，多语言翻译、指令理解、常识推理能力都明显提升。

支持的语言

英语（English）

简体中文（Simplified Chinese）

繁体中文（Traditional Chinese）

法语（French）

西班牙语（Spanish）

阿拉伯语（Arabic），使用阿拉伯字母。是众多阿拉伯国家的官方语言。

俄语（Russian），使用西里尔字母。在俄罗斯及其他一些国家是官方语言。

葡萄牙语（Portuguese），使用拉丁字母。在葡萄牙、巴西和其他葡萄牙语国家是官方语言。

德语（German），使用拉丁字母。在德国和奥地利等地是官方语言。

意大利语（Italian），使用拉丁字母。在意大利、圣马力诺以及瑞士的部分地区是官方语言。

荷兰语（Dutch），使用拉丁字母。在荷兰、比利时部分地区（弗拉芒地区）和苏里南是官方语言。

丹麦语（Danish），使用拉丁字母。在丹麦是官方语言。

爱尔兰语（Irish），使用拉丁字母。在爱尔兰是官方语言之一。

威尔士语（Welsh），使用拉丁字母。在威尔士使用，是官方语言之一。

芬兰语（Finnish），使用拉丁字母。在芬兰是官方语言。

冰岛语（Icelandic），使用拉丁字母。在冰岛是官方语言。

瑞典语（Swedish），使用拉丁字母。是瑞典的官方语言。

新挪威语（Norwegian Nynorsk），使用拉丁字母。在挪威与书面挪威语共同使用，属主流语言的一部分。

书面挪威语（Norwegian Bokmål），使用拉丁字母。在挪威使用，是主流语言的一部分。

日语（Japanese），使用日文字母。在日本是官方语言。

朝鲜语/韩语（Korean），使用韩字（Hangul）。在韩国和朝鲜是官方语言。

越南语（Vietnamese），使用拉丁字母。在越南是官方语言。

泰语（Thai），使用泰文字母。在泰国是官方语言。

印度尼西亚语（Indonesian），使用拉丁字母。是印度尼西亚的官方语言。

马来语（Malay），使用拉丁字母。是马来西亚等地的主要语言。

缅甸语（Burmese），使用缅甸字母。在缅甸是官方语言。

他加禄语（Tagalog），使用拉丁字母。菲律宾的主要语言之一。

高棉语（Khmer），使用高棉字母。在柬埔寨是官方语言。

老挝语（Lao），使用老挝字母。在老挝是官方语言。

印地语（Hindi），使用天城文（Devanagari）。是印度的官方语言之一。

孟加拉语（Bengali），使用孟加拉字母。在孟加拉国和印度西孟加拉邦是官方语言。

乌尔都语（Urdu），使用阿拉伯字母。在巴基斯坦是官方语言之一，也在印度使用。

尼泊尔语（Nepali），使用天城字母。在尼泊尔是官方语言。

希伯来语（Hebrew），使用希伯来字母。在以色列是官方语言。

土耳其语（Turkish），使用拉丁字母。在土耳其和塞浦路斯北部是官方语言。

波斯语（Persian），使用阿拉伯字母。在伊朗和塔吉克斯坦等地是官方语言。

波兰语（Polish），使用拉丁字母。在波兰是官方语言。

乌克兰语（Ukrainian），使用西里尔字母。在乌克兰是官方语言。

捷克语（Czech），使用拉丁字母。在捷克是官方语言。

罗马尼亚语（Romanian），使用拉丁字母。在罗马尼亚和摩尔多瓦是官方语言。

保加利亚语（Bulgarian），使用西里尔字母。在保加利亚是官方语言。

斯洛伐克语（Slovak），使用拉丁字母。在斯洛伐克是官方语言。

匈牙利语（Hungarian），使用拉丁字母。在匈牙利是官方语言。

斯洛文尼亚语（Slovenian），使用拉丁字母。在斯洛文尼亚是官方语言。

拉脱维亚语（Latvian），使用拉丁字母。在拉脱维亚是官方语言。

爱沙尼亚语（Estonian），使用拉丁字母。在爱沙尼亚是官方语言。

立陶宛语（Lithuanian），使用拉丁字母。在立陶宛是官方语言。

白俄罗斯语（Belarusian），使用西里尔字母。在白俄罗斯是官方语言之一。

希腊语（Greek），使用希腊字母。在希腊和塞浦路斯是官方语言。

克罗地亚语（Croatian），使用拉丁字母。在克罗地亚是官方语言。

马其顿语（Macedonian），使用西里尔字母。是北马其顿的官方语言。

马耳他语（Maltese），使用拉丁字母。在马耳他是官方语言。

塞尔维亚语（Serbian），使用西里尔字母。在塞尔维亚是官方语言。

波斯尼亚语（Bosnian），使用拉丁字母。在波斯尼亚和黑塞哥维那是官方语言之一。

格鲁吉亚语（Georgian），使用格鲁吉亚字母（Georgian script）。在格鲁吉亚是官方语言。

亚美尼亚语（Armenian），使用亚美尼亚字母。在亚美尼亚是官方语言。

北阿塞拜疆语（North Azerbaijani），使用拉丁字母。在阿塞拜疆是官方语言。

哈萨克语（Kazakh），使用西里尔字母。在哈萨克斯坦是官方语言。

北乌兹别克语（Northern Uzbek），使用拉丁字母。在乌兹别克斯坦是官方语言。

塔吉克语（Tajik），使用西里尔字母。在塔吉克斯坦是官方语言。

斯瓦西里语（Swahili），使用拉丁字母。在东非许多国家是通用语或官方语言。

南非语（Afrikaans），使用拉丁字母。主要在南非和纳米比亚使用。

粤语（Cantonese），使用繁体字。主要在中国广东省、香港和澳门使用，是这些地区的主要语言之一。

卢森堡语（Luxembourgish），使用拉丁字母。在卢森堡和德国部分地区使用，是官方语言之一。

林堡语（Limburgish），使用拉丁字母。主要在荷兰、比利时和德国部分地区使用。

加泰罗尼亚语（Catalan），使用拉丁字母。在加泰罗尼亚和其他部分西班牙地区使用。

加利西亚语（Galician），使用拉丁字母。主要在西班牙加利西亚地区使用。

阿斯图里亚斯语（Asturian），使用拉丁字母。主要在西班牙阿斯图里亚斯地区使用。

巴斯克语（Basque），使用拉丁字母。主要在西班牙和法国的巴斯克地区使用，是西班牙巴斯克自治区的官方语言之一。

奥克语（Occitan），使用拉丁字母。主要在法国南部地区使用。

威尼斯语（Venetian），使用拉丁字母。主要在意大利威尼斯地区使用。

撒丁语（Sardinian），使用拉丁字母。主要在意大利撒丁岛使用。

西西里语（Sicilian），使用拉丁字母。主要在意大利西西里岛使用。

弗留利语（Friulian），使用拉丁字母。主要在意大利弗留利-威尼斯朱利亚使用。

隆巴底语（Lombard），使用拉丁字母。主要在意大利伦巴第地区使用。

利古里亚语（Ligurian），使用拉丁字母。主要在意大利利古里亚地区使用。

法罗语（Faroese），使用拉丁字母。主要在法罗群岛使用，是法罗群岛的官方语言之一。

托斯克阿尔巴尼亚语（Tosk Albanian），使用拉丁字母。主要是阿尔巴尼亚南部方言。

西里西亚语（Silesian），使用拉丁字母。主要在波兰使用。

巴什基尔语（Bashkir），使用西里尔字母。主要在俄罗斯巴什科尔托斯坦使用。

鞑靼语（Tatar），使用西里尔字母。主要在俄罗斯塔塔尔斯坦使用。

美索不达米亚阿拉伯语（Mesopotamian Arabic），使用阿拉伯字母。主要在伊拉克使用。

内志阿拉伯语（Najdi Arabic），使用阿拉伯字母。主要在沙特阿拉伯的内志地区使用。

埃及阿拉伯语（Egyptian Arabic），使用阿拉伯字母。主要在埃及使用。

黎凡特阿拉伯语（Levantine Arabic），使用阿拉伯字母。主要在叙利亚和黎巴嫩使用。

闪米特阿拉伯语（Ta'izzi-Adeni Arabic），使用阿拉伯字母。主要在也门和沙特阿拉伯的哈德拉莫区域使用。

达里语（Dari），使用阿拉伯字母。在阿富汗是官方语言之一。

突尼斯阿拉伯语（Tunisian Arabic），使用阿拉伯字母。主要在突尼斯使用。

摩洛哥阿拉伯语（Moroccan Arabic），使用阿拉伯字母。主要在摩洛哥使用。

克里奥尔语（Kabuverdianu），使用拉丁字母。主要在佛得角使用。

托克皮辛语（Tok Pisin），使用拉丁字母。在巴布亚新几内亚是主要的通用语之一。

意第绪（Eastern Yiddish），使用希伯来字母。主要在犹太社区中使用。

信德阿拉伯语（Sindhi），使用阿拉伯字母。在巴基斯坦信德省是官方语言之一。

僧伽罗语（Sinhala），使用僧伽罗字母。在斯里兰卡是官方语言之一。

泰卢固语（Telugu），使用泰卢固字母。在印度安得拉邦和特伦甘纳邦是官方语言之一。

旁遮普语（Punjabi），使用古尔穆奇字母。在印度旁遮普邦使用，是印度的官方语言之一。

泰米尔语（Tamil），使用泰米尔字母。在印度泰米尔纳德邦和斯里兰卡是官方语言之一。

古吉拉特语（Gujarati），使用古吉拉特字母。在印度古吉拉特邦是官方语言之一。

马拉雅拉姆语（Malayalam），使用马拉雅拉姆字母。在印度喀拉拉邦是官方语言之一。

马拉地语（Marathi），使用天城字母。在印度马哈拉施特拉邦是官方语言之一。

卡纳达语（Kannada），使用卡纳达字母。在印度卡纳塔克邦是官方语言之一。

马加拉语（Magahi），使用天城文本。主要在印度比哈尔邦使用。

奥里亚语（Oriya），使用乌尔都语字母。在印度奥迪沙邦是官方语言之一。

阿瓦德语（Awadhi），使用天城字母。主要在印度北方邦使用。

迈蒂利语（Maithili），使用天城字母。在印度比哈尔邦和尼泊尔特莱平原使用，是印度的官方语言之一。

阿萨姆语（Assamese），使用孟加拉字母。在印度阿萨姆邦是官方语言之一。

切蒂斯格尔语（Chhattisgarhi），使用天城字母。主要在印度切蒂斯格尔邦使用。

比哈尔语（Bhojpuri），使用天城字母。在印度和尼泊尔部分地区使用。

米南加保语（Minangkabau），使用拉丁字母。主要在印度尼西亚苏门答腊岛使用。

巴厘语（Balinese），使用拉丁字母。主要在印度尼西亚巴厘岛使用。

爪哇语（Javanese），使用拉丁字母（也惯用爪哇文字）。在印度尼西亚爪哇岛广泛使用。

班章语（Banjar），使用拉丁字母。主要在印度尼西亚加里曼丹岛使用。

巽他语（Sundanese），使用拉丁字母（虽然传统上使用巽他文字）。主要在印度尼西亚爪哇岛的西部使用。

宿务语（Cebuano），使用拉丁字母。主要在菲律宾宿务地区使用。

邦阿西楠语（Pangasinan），使用拉丁字母。主要在菲律宾邦阿西楠语省使用。

伊洛卡诺语（Iloko），使用拉丁字母。主要在菲律宾使用。

瓦莱语（Waray (Philippines)），使用拉丁字母。主要在菲律宾使用。

海地语（Haitian），使用拉丁字母。在海地是官方语言之一。

帕皮阿门托语（Papiamento），使用拉丁字母。主要在加勒比地区如阿鲁巴岛和库拉索岛使用。

回复格式：修复了之前版本存在的回复格式的问题，如异常 Markdown、中间截断、错误输出 boxed 等问题。

2025 年 4月发布的Qwen3 开源模型在思考模式下不支持非流式输出方式。

思考模式 | 非思考模式 | API 参考

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	模式	上下文长度	最大输入	最大思维链长度	最大回复长度	输入成本	输出成本思维链+输出	免费额度（注）
模型名称	模式	（Token数）				（每百万Token）		免费额度（注）
qwen3-next-80b-a3b-thinking	仅思考模式	131,072	126,976	81,920	32,768	1元	10元	各100万 Token 有效期：百炼开通后90天内
qwen3-next-80b-a3b-instruct	仅非思考模式		129,024	-		1元	4元
qwen3-235b-a22b-thinking-2507	仅思考模式		126,976	81,920		2元	20元
qwen3-235b-a22b-instruct-2507	仅非思考模式		129,024	-		2元	8元
qwen3-30b-a3b-thinking-2507	仅思考模式		126,976	81,920		0.75元	7.5元
qwen3-30b-a3b-instruct-2507	仅非思考模式		129,024	-		0.75元	3元
qwen3-235b-a22b 本模型与以下模型均于2025 年 4月发布	非思考		129,024	-	16,384	2元	8元
qwen3-235b-a22b 本模型与以下模型均于2025 年 4月发布	思考		98,304	38,912		2元	20元
qwen3-32b	非思考		129,024	-		2元	8元
qwen3-32b	思考		98,304	38,912		2元	20元
qwen3-30b-a3b	非思考		129,024	-		0.75元	3元
qwen3-30b-a3b	思考		98,304	38,912		0.75元	7.5元
qwen3-14b	非思考		129,024	-	8,192	1元	4元
qwen3-14b	思考		98,304	38,912		1元	10元
qwen3-8b	非思考		129,024	-		0.5元	2元
qwen3-8b	思考		98,304	38,912		0.5元	5元
qwen3-4b	非思考		129,024	-		0.3元	1.2元
qwen3-4b	思考		98,304	38,912			3元
qwen3-1.7b	非思考	32,768	30,720	-			1.2元
qwen3-1.7b	思考		28,672	与输入相加不超过30,720			3元
qwen3-0.6b	非思考		30,720	-			1.2元
qwen3-0.6b	思考		28,672	与输入相加不超过30,720			3元

全球

在全球部署模式下，接入点与数据存储均位于美国（弗吉尼亚）地域，模型推理计算资源在全球范围内动态调度。

模型名称	模式	上下文长度	最大输入	最大思维链长度	最大回复长度	输入成本	输出成本思维链+输出	免费额度（注）
模型名称	模式	（Token数）				（每百万Token）		免费额度（注）
qwen3-next-80b-a3b-thinking	仅支持思考模式	131,072	126,976	81,920	32,768	1.101元	8.807元	无免费额度
qwen3-next-80b-a3b-instruct	仅非思考模式		129,024	-		1.101元	8.807元
qwen3-235b-a22b-thinking-2507	仅支持思考模式		126,976	81,920		1.688元	16.88元
qwen3-235b-a22b-instruct-2507	仅非思考模式		129,024	-		1.688元	6.752元
qwen3-30b-a3b-thinking-2507	仅支持思考模式		126,976	81,920		1.468元	17.614元
qwen3-30b-a3b-instruct-2507	仅非思考模式		129,024	-		1.468元	5.871元
qwen3-235b-a22b	非思考		129,024	-	16,384	5.137元	20.55元
qwen3-235b-a22b	思考		98,304	38,912		5.137元	61.65元
qwen3-32b	非思考		129,024	-		1.174元	4.697元
qwen3-32b	思考		98,304	38,912		1.174元	4.697元
qwen3-30b-a3b	非思考		129,024	-		1.468元	5.871元
qwen3-30b-a3b	思考		98,304	38,912		1.468元	17.614元
qwen3-14b	非思考		129,024	-	8,192	2.569元	10.275元
qwen3-14b	思考		98,304	38,912		2.569元	30.825元
qwen3-8b	非思考		129,024	-		1.321元	5.137元
qwen3-8b	思考		98,304	38,912		1.321元	15.412元

国际

在国际部署模式下，接入点与数据存储均位于新加坡地域，模型推理计算资源在全球范围内动态调度（不含中国内地）。

模型名称	模式	上下文长度	最大输入	最大思维链长度	最大回复长度	输入成本	输出成本思维链+输出	免费额度（注）
模型名称	模式	（Token数）				（每百万Token）		免费额度（注）
qwen3-next-80b-a3b-thinking	仅支持思考模式	131,072	126,976	81,920	32,768	1.101元	8.807元	无免费额度
qwen3-next-80b-a3b-instruct	仅非思考模式		129,024	-		1.101元	8.807元
qwen3-235b-a22b-thinking-2507	仅支持思考模式		126,976	81,920		1.688元	16.88元
qwen3-235b-a22b-instruct-2507	仅非思考模式		129,024	-		1.688元	6.752元
qwen3-30b-a3b-thinking-2507	仅支持思考模式		126,976	81,920		1.468元	17.614元
qwen3-30b-a3b-instruct-2507	仅非思考模式		129,024	-		1.468元	5.871元
qwen3-235b-a22b 本模型与以下模型均于2025 年 4月发布	非思考		129,024	-	16,384	5.137元	20.55元
qwen3-235b-a22b 本模型与以下模型均于2025 年 4月发布	思考		98,304	38,912		5.137元	61.65元
qwen3-32b	非思考		129,024	-		1.174元	4.697元
qwen3-32b	思考		98,304	38,912		1.174元	4.697元
qwen3-30b-a3b	非思考		129,024	-		1.468元	5.871元
qwen3-30b-a3b	思考		98,304	38,912		1.468元	17.614元
qwen3-14b	非思考		129,024	-	8,192	2.569元	10.275元
qwen3-14b	思考		98,304	38,912		2.569元	30.825元
qwen3-8b	非思考		129,024	-		1.321元	5.137元
qwen3-8b	思考		98,304	38,912		1.321元	15.412元
qwen3-4b	非思考		129,024	-		0.807元	3.082元
qwen3-4b	思考		98,304	38,912			9.247元
qwen3-1.7b	非思考	32,768	30,720	-			3.082元
qwen3-1.7b	思考		28,672	与输入相加不超过30,720			9.247元
qwen3-0.6b	非思考		30,720	-			3.082元
qwen3-0.6b	思考		28,672	与输入相加不超过30,720			9.247元

对于 Qwen3 模型，开启思考模式时如果没有输出思考过程，按非思考模式价格进行收费。

QwQ-开源版

基于 Qwen2.5-32B 模型训练的 QwQ 推理模型，通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标（AIME 24/25、LiveCodeBench）以及部分通用指标（IFEval、LiveBench等）达到DeepSeek-R1 满血版水平，各指标均显著超过同样基于 Qwen2.5-32B 的 DeepSeek-R1-Distill-Qwen-32B。使用方法｜API 参考

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称

上下文长度

最大输入

最大思维链长度

最大回复长度

输入成本

输出成本

免费额度

（注）

（Token数）

（每百万Token）

qwq-32b

131,072

98,304

32,768

8,192

2元

6元

100万 Token

有效期：百炼开通后90天内

QwQ-Preview

qwq-32b-preview 模型是由 Qwen 团队于2024年开发的实验性研究模型，专注于增强 AI 推理能力，尤其是数学和编程领域。qwq-32b-preview 模型的局限性请参见QwQ官方博客。使用方法 | API参考｜在线体验

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

（注）

（Token数）

（每百万Token）

qwq-32b-preview

Batch调用半价

32,768

30,720

16,384

2元

6元

100万Token

有效期：百炼开通后90天内

Qwen2.5

Qwen2.5是Qwen大型语言模型系列。针对Qwen2.5，我们发布了一系列基础语言模型和指令调优语言模型，参数规模从5亿到720亿不等。Qwen2.5在Qwen2基础上进行了以下改进：

在我们最新的大规模数据集上进行预训练，包含多达18万亿个Token。
由于我们在这些领域的专业专家模型，模型的知识显著增多，编码和数学能力也大幅提高。
在遵循指令、生成长文本（超过8K个标记）、理解结构化数据（例如表格）和生成结构化输出（尤其是JSON）方面有显著改进。对系统提示的多样性更具弹性，增强了聊天机器人的角色扮演实现和条件设置。
支持超过29种语言，包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。

使用方法 | API参考 | 在线体验

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每百万Token）
qwen2.5-14b-instruct-1m	1,000,000	1,000,000	8,192	1元	3元	各100万Token 有效期：百炼开通后90天内
qwen2.5-7b-instruct-1m				0.5元	1元
qwen2.5-72b-instruct	131,072	129,024		4元	12元
qwen2.5-32b-instruct				2元	6元
qwen2.5-14b-instruct				1元	3元
qwen2.5-7b-instruct				0.5元	1元
qwen2.5-3b-instruct	32,768	30,720		0.3元	0.9元
qwen2.5-1.5b-instruct				目前仅供免费体验免费额度用完后不可调用，推荐使用Qwen3、DeepSeek、Kimi作为替代模型
qwen2.5-0.5b-instruct

国际

在国际部署模式下，接入点与数据存储均位于新加坡地域，模型推理计算资源在全球范围内动态调度（不含中国内地）。

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每百万Token）
qwen2.5-14b-instruct-1m	1,008,192	1,000,000	8,192	5.908元	23.632元	无免费额度
qwen2.5-7b-instruct-1m				2.701元	10.789元
qwen2.5-72b-instruct	131,072	129,024		10.275元	41.1元
qwen2.5-32b-instruct				5.137元	20.55元
qwen2.5-14b-instruct				2.569元	10.275元
qwen2.5-7b-instruct				1.284元	5.137元

Qwen2

阿里云的通义千问2-开源版。使用方法 | API参考 | 在线体验

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
模型名称	（Token数）			（每百万 Token）		免费额度（注）
qwen2-72b-instruct	131,072	128,000	6,144	4元	12元	各100万Token 有效期：百炼开通后90天内
qwen2-57b-a14b-instruct	65,536	63,488		3.5元	7元
qwen2-7b-instruct	131,072	128,000		1元	2元
qwen2-1.5b-instruct	32,768	30,720		限时免费
qwen2-0.5b-instruct	32,768	30,720		限时免费

Qwen1.5

阿里云的通义千问1.5-开源版。使用方法 | API参考 | 在线体验

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每百万 Token）
qwen1.5-110b-chat	32,000	30,000	8,000	7元	14元	各100万Token 有效期：百炼开通后90天内
qwen1.5-72b-chat			2,000	5元	10元
qwen1.5-32b-chat				3.5元	7元
qwen1.5-14b-chat	8,000	6,000		2元	4元
qwen1.5-7b-chat				1元	2元
qwen1.5-1.8b-chat	32,000	30,000		限时免费
qwen1.5-0.5b-chat

QVQ

qvq-72b-preview模型是由 Qwen 团队开发的实验性研究模型，专注于提升视觉推理能力，尤其在数学推理领域。qvq-72b-preview模型的局限性请参见QVQ官方博客。使用方法 | API参考

如果希望模型先输出思考过程再输出回答内容，请使用商业版模型QVQ。

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

（注）

（Token数）

（每百万 Token）

qvq-72b-preview

32,768

16,384

单图最大16384

16,384

12元

36元

10万Token

有效期：百炼开通后90天内

Qwen-Omni

基于Qwen2.5训练的全新多模态理解生成大模型，支持文本、图像、语音、视频输入理解，具备文本和语音同时流式生成的能力，多模态内容理解速度显著提升。使用方法｜API 参考

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称

上下文长度

最大输入

最大输出

免费额度

（注）

（Token数）

qwen2.5-omni-7b

32,768

30,720

2,048

100万Token（不区分模态）

有效期：百炼开通后90天

开源版模型的免费额度用完后，输入与输出的计费规则如下：

输入计费项	单价（每百万Token）
输入：文本	0.6元
输入：音频	38元
输入：图片/视频	2元

输出计费项

单价（每百万Token）

输出：文本

2.4元（输入仅包含文本时）

6元（输入包含图片/音频/视频时）

输出：文本+音频

76元（音频）

输出的文本不计费。

计费示例：某次请求输入了100万 Token 的文本和100万 Token 的图片，输出了100万 Token 的文本和100万 Token 的音频，则该请求花费：0.6元（文本输入）+ 2元（图片输入）+ 76元（音频输出）= 78.6元。

国际

在国际部署模式下，接入点与数据存储均位于新加坡地域，模型推理计算资源在全球范围内动态调度（不含中国内地）。

模型名称

上下文长度

最大输入

最大输出

免费额度

（注）

（Token数）

qwen2.5-omni-7b

32,768

30,720

2,048

无免费额度

输入与输出的计费规则如下：

输入计费项	单价（每百万Token）
输入：文本	0.734元
输入：音频	49.613元
输入：图片/视频	2.055元

输出计费项

单价（每百万Token）

输出：文本

2.936元（输入仅包含文本时）

6.165元（输入包含图片/音频/视频时）

输出：文本+音频

99.153元（音频）

输出的文本不计费。

Qwen3-Omni-Captioner

Qwen3-Omni-Captioner以通义千问3-Omni为基座的开源模型，无需任何提示，自动为复杂语音、环境声、音乐、影视声效等生成精准、全面的描述，能识别说话人情绪、音乐元素（如风格、乐器）、敏感信息等，适用于音频内容分析、安全审核、意图识别、音频剪辑等多个领域。使用方法 | API 参考

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

（注）

（Token数）

（每百万Token）

qwen3-omni-30b-a3b-captioner

65,536

32,768

15.8元

12.7元

100万Token

有效期：阿里云百炼开通后90天内

国际

在国际部署模式下，接入点与数据存储均位于新加坡地域，模型推理计算资源在全球范围内动态调度（不含中国内地）。

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

（注）

（Token数）

（每百万Token）

qwen3-omni-30b-a3b-captioner

65,536

32,768

27.962元

22.458元

无免费额度

Qwen-VL

阿里云的通义千问VL开源版。使用方法 | API参考

相较于Qwen2.5-VL，Qwen3-VL模型能力有极大提升：

智能体交互：可操作电脑或手机界面，识别 GUI 元素、理解功能、调用工具执行任务，在 OS World 等评测中达到顶尖水平。
视觉编码：可通过图像或视频生成代码，用于将设计图、网站截图等生成HTML、CSS、JS 代码。
空间感知：支持二维和三维定位，精准判断物体方位、视角变化、遮挡关系。
长视频理解：支持长达20分钟的视频内容理解，并能精确定位到秒级时刻。
深度思考：具有深度思考能力，擅长捕捉细节、分析因果，在 MathVista、MMMU 等评测中达到顶尖水平。
文字识别：支持语言扩展至 33种，在复杂光线、模糊、倾斜等场景下表现更稳定；显著提升生僻字、古籍字、专业术语的识别准确率。
支持的语言
支持的语言共33种，分别为中文、日语、韩语、印尼语、越南语、泰语、英语、法语、德语、俄语、葡萄牙语、西班牙语、意大利语、瑞典语、丹麦语、捷克语、挪威语、荷兰语、芬兰语、土耳其语、波兰语、斯瓦希里语、罗马尼亚语、塞尔维亚语、希腊语、哈萨克语、乌兹别克语、宿务语、阿拉伯语、乌尔都语、波斯语、印地语 / 天城语、希伯来语。

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	模式	上下文长度	最大输入	最大思维链长度	最大回复长度	输入成本	输出成本思维链+输出	免费额度（注）
模型名称	模式	（Token数）				（每百万Token）		免费额度（注）
qwen3-vl-235b-a22b-thinking	仅思考模式	131,072	126,976	81,920	32,768	2元	20元	各100万 Token 有效期：百炼开通后90天内
qwen3-vl-235b-a22b-instruct	仅非思考模式		129,024	-		2元	8元
qwen3-vl-32b-thinking	仅思考模式		126,976	81,920		2元	20元
qwen3-vl-32b-instruct	仅非思考模式		129,024	-		2元	8元
qwen3-vl-30b-a3b-thinking	仅思考模式		126,976	81,920		0.75元	7.5元
qwen3-vl-30b-a3b-instruct	仅非思考模式		129,024	-		0.75元	3元
qwen3-vl-8b-thinking	仅思考模式		126,976	81,920		0.5元	5元
qwen3-vl-8b-instruct	仅非思考模式		129,024	-		0.5元	2元

更多模型

Qwen2.5-VL是视觉理解系列大模型，在Qwen2-VL的基础上做了如下改进：

感知更丰富的世界：Qwen2.5-VL不仅擅长识别常见物体，如花、鸟、鱼和昆虫等，还能分析图像中的文本、图表、图标、图形和布局等。
长视频理解能力：支持对长视频文件（最长10分钟）进行理解，具备通过精准定位相关视频片段来捕捉事件的新能力
视觉定位：Qwen2.5-VL可通过生成bounding box（矩形框的左上角和右下角坐标）或者point（矩形框的中心点坐标）来准确定位图像中的物体，并能够为坐标和属性提供稳定的JSON输出。
结构化输出：可支持对发票、表单、表格等数据进行结构化输出，惠及金融、商业等领域的应用。

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每百万Token）
qwen2.5-vl-72b-instruct	131,072	129,024 单图最大16384	8,192	16元	48元	各100万Token 有效期：百炼开通后90天内
qwen2.5-vl-32b-instruct				8元	24元
qwen2.5-vl-7b-instruct				2元	5元
qwen2.5-vl-3b-instruct				1.2元	3.6元
qwen2-vl-72b-instruct	32,768	30,720 单图最大16384	2,048	16元	48元
qwen2-vl-7b-instruct	32,000	30,000 单图最大16384	2,000	目前仅供免费体验。免费额度用完后不可调用，建议改用qwen-vl-max、qwen-vl-plus模型。		各10万Token 有效期：百炼开通后90天内
qwen2-vl-2b-instruct				限时免费
qwen-vl-v1	8,000	6,000 单图最大1280	1,500	目前仅供免费体验。免费额度用完后不可调用，建议改用qwen-vl-max、qwen-vl-plus模型。
qwen-vl-chat-v1

全球

在全球部署模式下，接入点与数据存储均位于美国（弗吉尼亚）地域，模型推理计算资源在全球范围内动态调度。

模型名称	模式	上下文长度	最大输入	最大思维链长度	最大回复长度	输入成本	输出成本思维链+输出	免费额度（注）
模型名称	模式	（Token数）				（每百万Token）		免费额度（注）
qwen3-vl-235b-a22b-thinking	仅思考模式	131,072	126,976	81,920	32,768	2.936元	29.357元	无免费额度
qwen3-vl-235b-a22b-instruct	仅非思考模式		129,024	-		2.936元	11.743元
qwen3-vl-32b-thinking	仅思考模式		126,976	81,920		1.174元	4.697元
qwen3-vl-32b-instruct	仅非思考模式		129,024	-		1.174元	4.697元
qwen3-vl-30b-a3b-thinking	仅思考模式		126,976	81,920		1.468元	17.614元
qwen3-vl-30b-a3b-instruct	仅非思考模式		129,024	-		1.468元	5.871元
qwen3-vl-8b-thinking	仅思考模式		126,976	81,920		1.321元	15.412元
qwen3-vl-8b-instruct	仅非思考模式		129,024	-		1.321元	5.137元

国际

在国际部署模式下，接入点与数据存储均位于新加坡地域，模型推理计算资源在全球范围内动态调度（不含中国内地）。

模型名称	模式	上下文长度	最大输入	最大思维链长度	最大回复长度	输入成本	输出成本思维链+输出	免费额度（注）
模型名称	模式	（Token数）				（每百万Token）		免费额度（注）
qwen3-vl-235b-a22b-thinking	仅思考模式		126,976	81,920		2.936元	29.357元	无免费额度
qwen3-vl-235b-a22b-instruct	仅非思考模式		129,024	-		2.936元	11.743元
qwen3-vl-32b-thinking	仅思考模式	131,072	126,976	81,920	32,768	1.174元	4.697元
qwen3-vl-32b-instruct	仅非思考模式		129,024	-		1.174元	4.697元
qwen3-vl-30b-a3b-thinking	仅思考模式		126,976	81,920		1.468元	17.614元
qwen3-vl-30b-a3b-instruct	仅非思考模式		129,024	-		1.468元	5.871元
qwen3-vl-8b-thinking	仅思考模式		126,976	81,920		1.321元	15.412元
qwen3-vl-8b-instruct	仅非思考模式		129,024	-		1.321元	5.137元

更多模型

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每百万Token）
qwen2.5-vl-72b-instruct	131,072	129,024 单图最大16384	8,192	20.55元	61.65元	无免费额度
qwen2.5-vl-32b-instruct				10.275元	30.825元
qwen2.5-vl-7b-instruct				2.569元	7.706元
qwen2.5-vl-3b-instruct				1.541元	4.624元

Qwen-Audio

阿里云的通义千问Audio开源版。使用方法

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每百万 Token）
qwen2-audio-instruct 相比qwen-audio-chat提升了音频理解能力，且新增了语音聊天能力。	8,000	6,000	1,500	目前仅供免费体验。免费额度用完后不可调用，推荐使用Qwen-Omni作为替代模型		10万Token 有效期：阿里云百炼开通后90天内
qwen-audio-chat

Qwen-Math

基于Qwen模型构建的专门用于数学解题的语言模型。Qwen2.5-Math支持中文和英文，并整合了多种推理方法，包括CoT（Chain of Thought）、PoT（Program of Thought）和 TIR（Tool-Integrated Reasoning）。使用方法 | API参考 | 在线体验

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	输入价格	输出价格	上下文长度	最大输入	最大输出	免费额度（注）
	（每百万Token）		（Token数）
qwen2.5-math-72b-instruct	4元	12元	4,096	3,072	3,072	各100万Token 有效期：百炼开通后90天内
qwen2.5-math-7b-instruct	1元	2元
qwen2.5-math-1.5b-instruct	限时免费					限时免费

Qwen-Coder

通义千问代码模型开源版。最新的 Qwen3-Coder系列具有强大的Coding Agent能力，擅长工具调用和环境交互，能够实现自主编程、代码能力卓越的同时兼具通用能力。使用方法 | API参考 | 在线体验

中国内地

在中国内地部署模式下，接入点与数据存储均位于北京地域，模型推理计算资源仅限于中国内地。

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每百万Token）
qwen3-coder-480b-a35b-instruct	262,144	204,800	65,536	阶梯计价，请参见表格下方说明。		各100万Token 有效期：百炼开通后90天内
qwen3-coder-30b-a3b-instruct

qwen3-coder-480b-a35b-instruct 与 qwen3-coder-30b-a3b-instruct 根据本次请求输入的 Token数，采取阶梯计费。

模型名称	单次请求的输入 Token 数	输入成本（每百万Token）	输出成本（每百万Token）
qwen3-coder-480b-a35b-instruct	0<Token≤32K	6元	24元
	32K<Token≤128K	9元	36元
	128K<Token≤200K	15元	60元
qwen3-coder-30b-a3b-instruct	0<Token≤32K	1.5元	6元
	32K<Token≤128K	2.25元	9元
	128K<Token≤200K	3.75元	15元

更多模型

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每百万Token）
qwen2.5-coder-32b-instruct	131,072	129,024	8,192	2元	6元	各100万Token 有效期：百炼开通后90天内
qwen2.5-coder-14b-instruct
qwen2.5-coder-7b-instruct				1元	2元
qwen2.5-coder-3b-instruct	32,768	30,720		限时免费体验
qwen2.5-coder-1.5b-instruct
qwen2.5-coder-0.5b-instruct

全球

在全球部署模式下，接入点与数据存储均位于美国（弗吉尼亚）地域，模型推理计算资源在全球范围内动态调度。

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每百万Token）
qwen3-coder-480b-a35b-instruct	262,144	204,800	65,536	阶梯计价，请参见表格下方说明。		无免费额度
qwen3-coder-30b-a3b-instruct

qwen3-coder-480b-a35b-instruct 与 qwen3-coder-30b-a3b-instruct 根据本次请求输入的 Token数，采取阶梯计费。

模型名称	单次请求的输入 Token 数	输入成本（每百万Token）	输出成本（每百万Token）
qwen3-coder-480b-a35b-instruct	0<Token≤32K	11.009元	55.044元
	32K<Token≤128K	19.816元	99.08元
	128K<Token≤200K	33.027元	165.133元
qwen3-coder-30b-a3b-instruct	0<Token≤32K	3.303元	16.513元
	32K<Token≤128K	5.504元	27.522元
	128K<Token≤200K	8.807元	44.035元

国际

在国际部署模式下，接入点与数据存储均位于新加坡地域，模型推理计算资源在全球范围内动态调度（不含中国内地）。

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每百万Token）
qwen3-coder-480b-a35b-instruct	262,144	204,800	65,536	阶梯计价，请参见表格下方说明。		无免费额度
qwen3-coder-30b-a3b-instruct

qwen3-coder-480b-a35b-instruct 与 qwen3-coder-30b-a3b-instruct 根据本次请求输入的 Token数，采取阶梯计费。

模型名称	单次请求的输入 Token 数	输入成本（每百万Token）	输出成本（每百万Token）
qwen3-coder-480b-a35b-instruct	0<Token≤32K	11.009元	55.044元
	32K<Token≤128K	19.816元	99.08元
	128K<Token≤200K	33.027元	165.133元
qwen3-coder-30b-a3b-instruct	0<Token≤32K	3.303元	16.513元
	32K<Token≤128K	5.504元	27.522元
	128K<Token≤200K	8.807元	44.035元

基础限流

关于模型的限流条件，请参见限流。