通义千问是由阿里云自主研发的大模型,用于理解和分析用户输入的自然语言,以及图片、音频、视频等多模态数据。在不同领域和任务为用户提供服务和帮助。您可以通过提供尽可能清晰详细的指令,来获取符合您预期的结果。
更多通义系列模型请参见通义大模型。
模型体验
您可以在模型体验中心试用通义千问模型。
应用场景
通义千问凭借其强大的语言及多模态数据处理能力,为用户带来高效、智能的语言服务体验,其能力包括但不限于文字创作、翻译服务和对话模拟等,具体应用场景如下:
文字创作:撰写故事、公文、邮件、剧本和诗歌等。
文本处理:润色文本和提取文本摘要等。
编程辅助:编写和优化代码等。
翻译服务:提供各类语言的翻译服务,如英语、日语、法语或西班牙语等。
对话模拟:扮演不同角色进行交互式对话。
数据可视化:图表制作和数据呈现等。
文本生成-通义千问
以下为通义千问商业版模型。相比开源版,商业版具有更新的能力和优化。
商业版暂不透出参数规模。
若有高并发需求,建议优先使用稳定版或最新版,限流条件更宽松。
稳定版模型会不定期更新升级。若需使用固定版本,请选择快照版本。
通义千问Max
通义千问系列效果最好的模型,适合复杂、多步骤的任务。使用方法 | API参考 | 在线体验
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 版本 | 模式 | 上下文长度 | 最大输入 | 最长思维链 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | ||||||||
qwen3-max 当前与qwen3-max-2025-09-23能力相同 | 稳定版 | 仅非思考 | 262,144 | 258,048 | - | 65,536 | 阶梯计价,请参见表格下方说明。 | 各100万Token 有效期:百炼开通后90天内 | |
qwen3-max-2026-01-23 支持调用内置工具 | 快照版 | 思考 | 81,920 | ||||||
非思考 | - | ||||||||
qwen3-max-2025-09-23 | 快照版 | 仅非思考 | |||||||
qwen3-max-preview | 预览版 | 思考 | 81,920 | 32,768 | |||||
非思考 | - | 65,536 | |||||||
以上模型根据本次请求的输入 Token数,采取阶梯计费。
模型名称 | 单次请求的输入Token数 | 输入单价(每百万Token) | 输出单价(每百万Token) 思维链+回答 |
qwen3-max Batch调用半价 上下文缓存享有折扣 | 0<Token≤32K | 2.5元 | 10元 |
32K<Token≤128K | 4元 | 16元 | |
128K<Token≤252K | 7元 | 28元 | |
qwen3-max-2026-01-23 | 0<Token≤32K | 2.5元 | 10元 |
32K<Token≤128K | 4元 | 16元 | |
128K<Token≤252K | 7元 | 28元 | |
qwen3-max-2025-09-23 | 0<Token≤32K | 6元 | 24元 |
32K<Token≤128K | 10元 | 40元 | |
128K<Token≤252K | 15元 | 60元 | |
qwen3-max-preview 上下文缓存享有折扣 | 0<Token≤32K | 6元 | 24元 |
32K<Token≤128K | 10元 | 40元 | |
128K<Token≤252K | 15元 | 60元 |
全球
在全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。
模型名称 | 版本 | 模式 | 上下文长度 | 最大输入 | 最长思维链 | 最大输出 | 输入成本 | 输出成本 |
(Token数) | (每百万Token) | |||||||
qwen3-max 当前与qwen3-max-2025-09-23能力相同 | 稳定版 | 仅非思考 | 262,144 | 258,048 | - | 65,536 | 阶梯计价,请参见表格下方说明。 | |
qwen3-max-2025-09-23 | 快照版 | 仅非思考 | ||||||
qwen3-max-preview | 预览版 | 思考 | 81,920 | 32,768 | ||||
非思考 | - | 65,536 | ||||||
以上模型根据本次请求的输入 Token数,采取阶梯计费。
单次请求的输入Token数 | 输入价格(每百万Token) qwen3-max、qwen3-max-preview 支持上下文缓存。 | 输出价格(每百万Token) |
0<Token≤32K | 8.807元 | 44.035元 |
32K<Token≤128K | 17.614元 | 88.071元 |
128K<Token≤252K | 22.018元 | 110.089元 |
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 版本 | 模式 | 上下文长度 | 最大输入 | 最长思维链 | 最大输出 | 输入成本 | 输出成本 |
(Token数) | (每百万Token) | |||||||
qwen3-max 当前与qwen3-max-2025-09-23能力相同 | 稳定版 | 仅非思考 | 262,144 | 258,048 | - | 65,536 | 阶梯计价,请参见表格下方说明。 | |
qwen3-max-2026-01-23 支持调用内置工具 | 快照版 | 思考 | 81,920 | |||||
非思考 | - | |||||||
qwen3-max-2025-09-23 | 快照版 | 仅非思考 | ||||||
qwen3-max-preview | 预览版 | 思考 | 81,920 | 32,768 | ||||
非思考 | - | 65,536 | ||||||
以上模型根据本次请求的输入 Token数,采取阶梯计费。
单次请求的输入Token数 | 输入价格(每百万Token) qwen3-max、qwen3-max-preview 支持上下文缓存。 | 输出价格(每百万Token) |
0<Token≤32K | 8.807元 | 44.035元 |
32K<Token≤128K | 17.614元 | 88.071元 |
128K<Token≤252K | 22.018元 | 110.089元 |
金融云
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | ||||||
qwen-max | 稳定版 | 8,000 | 6,000 | 2,000 | 38元 | 114元 | 100万Token 有效期:百炼开通后90天内 |
qwen3-max-2026-01-23 模型的思考模式:相较于 2025 年 9 月 23 日的快照版本,有效融合了思考模式与非思考模式,显著提升了模型的整体性能。在思考模式下,模型集成了 Web 搜索、网页信息提取和代码解释器三项工具,通过在思考过程中引入外部工具,在复杂问题上实现更高的准确率。
qwen3-max与qwen3-max-2026-01-23、qwen3-max-2025-09-23模型原生支持search agent,请参见联网搜索。
通义千问Plus
能力均衡,推理效果、成本和速度介于通义千问Max和通义千问Flash之间,适合中等复杂任务。
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 版本 | 模式 | 上下文长度 | 最大输入 | 最长思维链 | 最大输出 | 输入成本 | 输出成本 思维链+输出 | 免费额度 |
(Token数) | (每百万Token) | ||||||||
qwen-plus 当前与qwen-plus-2025-12-01能力相同 属于Qwen3系列 Batch调用半价 | 稳定版 | 思考 | 1,000,000 | 995,904 | 81,920 | 32,768 | 阶梯计价,请参见表格下方说明。 | 各100万Token 有效期:百炼开通后90天内 | |
非思考 | 997,952 | - | |||||||
qwen-plus-latest 当前与qwen-plus-2025-12-01能力相同 属于Qwen3系列 Batch调用半价 | 最新版 | 思考 | 995,904 | 81,920 | |||||
非思考 | 997,952 | - | |||||||
qwen-plus-2025-12-01 属于Qwen3系列 | 快照版 | 思考 | 995,904 | 81,920 | |||||
非思考 | 997,952 | - | |||||||
qwen-plus-2025-09-11 属于Qwen3系列 | 思考 | 995,904 | 81,920 | ||||||
非思考 | 997,952 | - | |||||||
qwen-plus-2025-07-28 又称qwen-plus-0728 属于Qwen3系列 | 思考 | 995,904 | 81,920 | ||||||
非思考 | 997,952 | - | |||||||
qwen-plus-2025-07-14 又称qwen-plus-0714 属于Qwen3系列 | 思考 | 131,072 | 98,304 | 38,912 | 16,384 | 0.8元 | 8元 | ||
非思考 | 129,024 | - | 2元 | ||||||
qwen-plus-2025-04-28 又称qwen-plus-0428 属于Qwen3系列 | 思考 | 98,304 | 38,912 | 8元 | |||||
非思考 | 129,024 | - | 2元 | ||||||
qwen-plus、qwen-plus-latest、qwen-plus-2025-12-01、qwen-plus-2025-09-11和qwen-plus-2025-07-28 根据本次请求输入的 Token数,采取阶梯计费。
单次请求的输入Token数 | 输入价格(每百万Token) | 模式 | 输出价格(每百万Token) |
0<Token≤128K | 0.8元 | 非思考模式 | 2元 |
思考模式 | 8元 | ||
128K<Token≤256K | 2.4元 | 非思考模式 | 20元 |
思考模式 | 24元 | ||
256K<Token≤1M | 4.8元 | 非思考模式 | 48元 |
思考模式 | 64元 |
上述模型支持思考模式和非思考模式,您可以通过 enable_thinking 参数实现两种模式的切换。除此之外,模型的能力得到了大幅提升:
推理能力:在数学、代码和逻辑推理等评测中,显著超过 QwQ 和同尺寸的非推理模型,达到同规模业界顶尖水平。
人类偏好能力:创意写作、角色扮演、多轮对话、指令遵循能力均大幅提升,通用能力显著超过同尺寸模型。
Agent 能力:在思考、非思考两种模式下都达到业界领先水平,能精准调用外部工具。
多语言能力:支持100多种语言和方言,多语言翻译、指令理解、常识推理能力都明显提升。
回复格式:修复了之前版本存在的回复格式的问题,如异常 Markdown、中间截断、错误输出 boxed 等问题。
对于上述模型,开启思考模式时如果没有输出思考过程,按非思考模式价格进行收费。
全球
在全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | ||||||
qwen-plus 当前与qwen-plus-2025-12-01能力相同 属于Qwen3系列 | 稳定版 | 1,000,000 | 思考模式 995,904 非思考模式 997,952 | 32,768 思维链最长81,920 | 阶梯计价,请参见表格下方说明。 | 无免费额度 | |
qwen-plus-2025-12-01 属于Qwen3系列 | 快照版 | 思考模式 995,904 非思考模式 997,952 | |||||
qwen-plus-2025-09-11 属于Qwen3系列 | |||||||
qwen-plus-2025-07-28 又称qwen-plus-0728 属于Qwen3系列 | |||||||
以上模型根据本次请求输入的 Token数,采取阶梯计费。
单次请求的输入Token数 | 输入价格(每百万Token) | 模式 | 输出价格(每百万Token) |
0<Token≤256K | 2.936元 | 非思考模式 | 8.807元 |
思考模式 | 29.357元 | ||
256K<Token≤1M | 8.807元 | 非思考模式 | 26.421元 |
思考模式 | 88.071元 |
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | ||||||
qwen-plus 当前与qwen-plus-2025-12-01能力相同 属于Qwen3系列 Batch调用半价 | 稳定版 | 1,000,000 | 思考模式 995,904 非思考模式 997,952 | 32,768 思维链最长81,920 | 阶梯计价,请参见表格下方说明。 | 无免费额度 | |
qwen-plus-latest 当前与qwen-plus-2025-12-01能力相同 属于Qwen3系列 | 最新版 | 思考模式 995,904 非思考模式 997,952 | |||||
qwen-plus-2025-12-01 属于Qwen3系列 | 快照版 | 思考模式 995,904 非思考模式 997,952 | |||||
qwen-plus-2025-09-11 属于Qwen3系列 | |||||||
qwen-plus-2025-07-28 又称qwen-plus-0728 属于Qwen3系列 | |||||||
qwen-plus-2025-07-14 又称qwen-plus-0714 属于Qwen3系列 | 131,072 | 思考模式 98,304 非思考模式 129,024 | 16,384 思维链最长38,912 | 2.936元 | 思考模式 29.357元 非思考模式 8.807元 | ||
qwen-plus-2025-04-28 又称qwen-plus-0428 属于Qwen3系列 | |||||||
qwen-plus-2025-01-25 又称qwen-plus-0125 | 129,024 | 8,192 | 8.807元 | ||||
qwen-plus、qwen-plus-latest、qwen-plus-2025-12-01、qwen-plus-2025-09-11和qwen-plus-2025-07-28 根据本次请求输入的 Token数,采取阶梯计费。
单次请求的输入Token数 | 输入价格(每百万Token) | 模式 | 输出价格(每百万Token) |
0<Token≤256K | 2.936元 | 非思考模式 | 8.807元 |
思考模式 | 29.357元 | ||
256K<Token≤1M | 8.807元 | 非思考模式 | 26.421元 |
思考模式 | 88.071元 |
美国
在美国部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源仅限于美国境内。
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | ||||||
qwen-plus-us 当前与 qwen-plus-2025-12-01-us 能力相同 属于Qwen3系列 | 稳定版 | 1,000,000 | 思考模式 995,904 非思考模式 997,952 | 32,768 思维链最长81,920 | 阶梯计价,请参见表格下方说明。 | 无 | |
qwen-plus-2025-12-01-us 属于Qwen3系列 | 快照版 | 思考模式 995,904 非思考模式 997,952 | |||||
以上模型根据本次请求输入的 Token数采取阶梯计费,其中qwen-plus-us支持上下文缓存。
单次请求的输入Token数 | 输入价格(每百万Token) | 模式 | 输出价格(每百万Token) |
0<Token≤256K | 2.936元 | 非思考模式 | 8.807元 |
思考模式 | 29.357元 | ||
256K<Token≤1M | 8.807元 | 非思考模式 | 26.421元 |
思考模式 | 88.071元 |
金融云
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | ||||||
qwen-plus | 稳定版 | 131,072 | 128,000 | 8,192 | 1.52元 | 3.8元 | 100万Token 有效期:百炼开通后90天内 |
通义千问Flash
通义千问系列速度最快、成本极低的模型,适合简单任务。通义千问Flash采用灵活的阶梯定价,相比通义千问Turbo计费更合理。使用方法 | API参考 | 在线体验 | 思考模式
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 版本 | 模式 | 上下文长度 | 最大输入 | 最长思维链 | 最大输出 | 输入成本 | 输出成本 思维链+输出 | 免费额度 |
(Token数) | (每百万Token) | ||||||||
qwen-flash 当前与 qwen-flash-2025-07-28能力相同 属于Qwen3系列 Batch调用半价 | 稳定版 | 思考 | 1,000,000 | 995,904 | 81,920 | 32,768 | 阶梯计价,请参见表格下方说明。 | 各100万Token 有效期:百炼开通后90天内 | |
非思考 | 997,952 | - | |||||||
qwen-flash-2025-07-28 属于Qwen3系列 | 快照版 | 思考 | 995,904 | 81,920 | |||||
非思考 | 997,952 | - | |||||||
以上模型根据本次请求输入的 Token数采取阶梯计费,其中qwen-flash支持缓存和 Batch调用。
单次请求的输入Token数 | 输入价格(每百万Token) | 输出价格(每百万Token) |
0<Token≤128K | 0.15元 | 1.5元 |
128K<Token≤256K | 0.6元 | 6元 |
256K<Token≤1M | 1.2元 | 12元 |
上述模型均支持思考模式和非思考模式,可通过 enable_thinking 参数实现两种模式的切换。
全球
在全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。
模型名称 | 版本 | 模式 | 上下文长度 | 最大输入 | 最长思维链 | 最大输出 | 输入成本 | 输出成本 思维链+输出 | 免费额度 |
(Token数) | (每百万Token) | ||||||||
qwen-flash 当前与 qwen-flash-2025-07-28能力相同 属于Qwen3系列 | 稳定版 | 思考 | 1,000,000 | 995,904 | 81,920 | 32,768 | 阶梯计价,请参见表格下方说明。 | 各100万Token 有效期:百炼开通后90天内 | |
非思考 | 997,952 | - | |||||||
qwen-flash-2025-07-28 属于Qwen3系列 | 快照版 | 思考 | 995,904 | 81,920 | |||||
非思考 | 997,952 | - | |||||||
以上模型根据本次请求输入的 Token数采取阶梯计费,其中qwen-flash支持缓存。
单次请求的输入Token数 | 输入价格(每百万Token) | 输出价格(每百万Token) |
0<Token≤256K | 0.367元 | 2.936元 |
256K<Token≤1M | 1.835元 | 14.678元 |
上述模型均支持思考模式和非思考模式,可通过 enable_thinking 参数实现两种模式的切换。
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 版本 | 模式 | 上下文长度 | 最大输入 | 最长思维链 | 最大输出 | 输入成本 | 输出成本 思维链+输出 | 免费额度 |
(Token数) | (每百万Token) | ||||||||
qwen-flash 当前与 qwen-flash-2025-07-28能力相同 属于Qwen3系列 | 稳定版 | 思考 | 1,000,000 | 995,904 | 81,920 | 32,768 | 阶梯计价,请参见表格下方说明。 | 各100万Token 有效期:百炼开通后90天内 | |
非思考 | 997,952 | - | |||||||
qwen-flash-2025-07-28 属于Qwen3系列 | 快照版 | 思考 | 995,904 | 81,920 | |||||
非思考 | 997,952 | - | |||||||
以上模型根据本次请求输入的 Token数采取阶梯计费,其中qwen-flash支持缓存。
单次请求的输入Token数 | 输入价格(每百万Token) | 输出价格(每百万Token) |
0<Token≤256K | 0.367元 | 2.936元 |
256K<Token≤1M | 1.835元 | 14.678元 |
上述模型均支持思考模式和非思考模式,可通过 enable_thinking 参数实现两种模式的切换。
美国
在美国部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源仅限于美国境内。
模型名称 | 版本 | 模式 | 上下文长度 | 最大输入 | 最长思维链 | 最大输出 | 输入成本 | 输出成本 思维链+输出 | 免费额度 |
(Token数) | (每百万Token) | ||||||||
qwen-flash-us 当前与 qwen-flash-2025-07-28-us能力相同 属于Qwen3系列 | 稳定版 | 思考 | 1,000,000 | 995,904 | 81,920 | 32,768 | 阶梯计价,请参见表格下方说明。 | 各100万Token 有效期:百炼开通后90天内 | |
非思考 | 997,952 | - | |||||||
qwen-flash-2025-07-28-us 属于Qwen3系列 | 快照版 | 思考 | 995,904 | 81,920 | |||||
非思考 | 997,952 | - | |||||||
以上模型根据本次请求输入的 Token数采取阶梯计费,其中qwen-flash支持缓存。
单次请求的输入Token数 | 输入价格(每百万Token) | 输出价格(每百万Token) |
0<Token≤256K | 0.367元 | 2.936元 |
256K<Token≤1M | 1.835元 | 14.678元 |
上述模型均支持思考模式和非思考模式,可通过 enable_thinking 参数实现两种模式的切换。
通义千问Turbo
通义千问Turbo 后续不再更新,建议替换为通义千问Flash。通义千问Flash采用灵活的阶梯定价,计费更合理。使用方法 | API参考 | 在线体验|思考模式
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | ||||||
qwen-turbo 当前与 qwen-turbo-2025-04-28能力相同 属于Qwen3系列 Batch调用半价 | 稳定版 | 思考模式 131,072 非思考模式 1,000,000 | 思考模式 98,304 非思考模式 1,000,000 | 16,384 思维链最长38,912 | 0.3元 | 思考模式 3元 非思考模式 0.6元 | 各100万Token 有效期:百炼开通后90天内 |
qwen-turbo-latest 始终与最新快照版能力相同 属于Qwen3系列 Batch调用半价 | 最新版 | ||||||
qwen-turbo-2025-07-15 又称qwen-turbo-0715 属于Qwen3系列 | 快照版 | ||||||
qwen-turbo-2025-04-28 又称qwen-turbo-0428 属于Qwen3系列 | |||||||
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | ||||||
qwen-turbo 当前与qwen-turbo-2025-04-28能力相同 属于Qwen3系列 Batch调用半价 | 稳定版 | 思考模式 131,072 非思考模式 1,000,000 | 思考模式 98,304 非思考模式 1,000,000 | 16,384 思维链最长38,912 | 0.367元 | 思考模式:3.67元 非思考模式:1.468元 | 无免费额度 |
qwen-turbo-latest 始终与最新快照版能力相同 属于Qwen3系列 | 最新版 | 0.367元 | 思考模式:3.67元 非思考模式:1.468元 | ||||
qwen-turbo-2025-04-28 又称qwen-turbo-0428 属于Qwen3系列 | 快照版 | ||||||
qwen-turbo-2024-11-01 又称qwen-turbo-1101 | 1,000,000 | 1,000,000 | 8,192 | 1.468元 | |||
上述模型均支持思考模式和非思考模式,可通过 enable_thinking 参数实现两种模式的切换。开启思考模式时如果没有输出思考过程,按非思考模式价格进行收费。
QwQ
基于 Qwen2.5 模型训练的 QwQ 推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、LiveCodeBench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平。使用方法
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大思维链长度 | 最大回复长度 | 输入成本 | 输出成本 思维链+输出 | 免费额度 |
(Token数) | (每百万Token) | |||||||
qwq-plus 当前与qwq-plus-2025-03-05能力相同 Batch调用半价 | 稳定版 | 131,072 | 98,304 | 32,768 | 8,192 | 1.6元 | 4元 | 各100万 Token 有效期:百炼开通后90天内 |
qwq-plus-latest 始终与最新快照版能力相同 | 最新版 | 1.6元 | 4元 | |||||
qwq-plus-2025-03-05 又称qwq-plus-0305 | 快照版 | |||||||
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大思维链长度 | 最大回复长度 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | |||||||
qwq-plus | 稳定版 | 131,072 | 98,304 | 32,768 | 8,192 | 5.871元 | 17.614元 | 无免费额度 |
通义千问Long
通义千问系列上下文窗口最长,能力均衡且成本较低的模型,适合长文本分析、信息抽取、总结摘要和分类打标等任务。使用方法 | 在线体验
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | ||||||
qwen-long Batch调用半价 | 稳定版 | 10,000,000 | 10,000,000 | 32,768 | 0.5元 | 2元 | 各100万Token 有效期:百炼开通后90天内 |
qwen-long-latest 始终与最新快照版能力相同 Batch调用半价 | 最新版 | ||||||
qwen-long-2025-01-25 又称qwen-long-0125 | 快照版 | 0.5元 | 2元 | ||||
通义千问Omni
Qwen-Omni 模型能够接收文本、图片、音频、视频等多种模态的组合输入,并生成文本或语音形式的回复, 提供多种拟人音色,支持多语言和方言的语音输出,可应用于文本创作、视觉识别、语音助手等场景。使用方法|API 参考
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 版本 | 模式 | 上下文长度 | 最大输入 | 最长思维链 | 最大输出 | 免费额度 |
(Token数) | |||||||
qwen3-omni-flash 当前与qwen3-omni-flash-2025-12-01能力相同 | 稳定版 | 思考模式 | 65,536 | 16,384 | 32,768 | 16,384 | 各100万Token(不区分模态) 有效期:百炼开通后90天内 |
非思考模式 | 49,152 | - | |||||
qwen3-omni-flash-2025-12-01 | 快照版 | 思考模式 | 65,536 | 16,384 | 32,768 | 16,384 | |
非思考模式 | 49,152 | - | |||||
qwen3-omni-flash-2025-09-15 又称qwen3-omni-flash-0915 | 思考模式 | 65,536 | 16,384 | 32,768 | 16,384 | ||
非思考模式 | 49,152 | - | |||||
免费额度用完后,输入与输出的计费规则如下,思考与非思考模式的计费相同,且思考模式下不支持输出音频。
|
|
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 版本 | 模式 | 上下文长度 | 最大输入 | 最长思维链 | 最大输出 | 免费额度 |
(Token数) | |||||||
qwen3-omni-flash 当前与qwen3-omni-flash-2025-12-01能力相同 | 稳定版 | 思考模式 | 65,536 | 16,384 | 32,768 | 16,384 | 无免费额度 |
非思考模式 | 49,152 | - | |||||
qwen3-omni-flash-2025-12-01 | 快照版 | 思考模式 | 65,536 | 16,384 | 32,768 | 16,384 | |
非思考模式 | 49,152 | - | |||||
qwen3-omni-flash-2025-09-15 又称qwen3-omni-flash-0915 | 快照版 | 思考模式 | 65,536 | 16,384 | 32,768 | 16,384 | |
非思考模式 | 49,152 | - | |||||
免费额度用完后,输入与输出的计费规则如下,思考与非思考模式的计费相同,且思考模式下不支持输出音频。
|
|
建议优先使用Qwen3-Omni-Flash模型,相较于Qwen-Omni-Turbo(后续不再更新),模型的能力得到大幅提升:
属于混合思考模型,支持思考模式和非思考模式,可通过
enable_thinking参数实现两种模式的切换,默认不开启思考模式。思考模式下不支持输出音频;在非思考模式下,对于模型输出的音频:
qwen3-omni-flash-2025-12-01支持的音色增加至49种,qwen3-omni-flash-2025-09-15、qwen3-omni-flash支持的音色增加至 17 种,Qwen-Omni-Turbo 仅支持 4 种;
支持语言增加至 10 种,Qwen-Omni-Turbo 仅支持 2 种。
通义千问Omni-Realtime
相比于通义千问Omni,支持音频的流式输入,且内置 VAD(Voice Activity Detection,语音活动检测)功能,可自动检测用户语音的开始和结束。使用方法|客户端事件|服务端事件|在线体验
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 免费额度 |
(Token数) | |||||
qwen3-omni-flash-realtime 当前与qwen3-omni-flash-realtime-2025-12-01能力相同 | 稳定版 | 65,536 | 49,152 | 16,384 | 各100万Token(不区分模态) 有效期:百炼开通后90天内 |
qwen3-omni-flash-realtime-2025-12-01 | 快照版 | ||||
qwen3-omni-flash-realtime-2025-09-15 | |||||
免费额度用完后,输入与输出的计费规则如下:
|
|
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 免费额度 |
(Token数) | |||||
qwen3-omni-flash-realtime 当前与qwen3-omni-flash-realtime-2025-12-01能力相同 | 稳定版 | 65,536 | 49,152 | 16,384 | 无免费额度 |
qwen3-omni-flash-realtime-2025-12-01 | 快照版 | ||||
qwen3-omni-flash-realtime-2025-09-15 | |||||
免费额度用完后,输入与输出的计费规则如下:
|
|
建议优先使用Qwen3-Omni-Flash-Realtime 模型,相较于Qwen-Omni-Turbo-Realtime(后续不再更新),模型的能力得到大幅提升。对于模型输出的音频:
qwen3-omni-flash-realtime-2025-12-01支持的音色增加至49种,qwen3-omni-flash-realtime-2025-09-15、qwen3-omni-realtime-flash支持的音色增加至 17 种,Qwen-Omni-Turbo-Realtime 仅支持 4 种
支持的语言增加至 10 种,Qwen-Omni-Turbo-Realtime 仅支持 2 种
QVQ
QVQ是视觉推理模型,支持视觉输入及思维链输出,在数学、编程、视觉分析、创作以及通用任务上都表现了更强的能力。使用方法 | 在线体验
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大思维链长度 | 最大回复长度 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | |||||||
qvq-max 相比 qvq-plus 具有更强的视觉推理和指令遵循能力,在更多复杂任务中提供最佳性能。 当前与qvq-max-2025-03-25能力相同 | 稳定版 | 131,072 | 106,496 单图最大16384 | 16,384 | 8,192 | 8元 | 32元 | 各100万 Token 有效期:百炼开通后90天内 |
qvq-max-latest 始终与最新快照版能力相同 | 最新版 | |||||||
qvq-max-2025-05-15 又称qvq-max-0515 | 快照版 | |||||||
qvq-max-2025-03-25 又称qvq-max-0325 | ||||||||
qvq-plus 当前与qvq-plus-2025-05-15能力相同 | 稳定版 | 2元 | 5元 | |||||
qvq-plus-latest 始终与最新快照版能力相同 | 最新版 | |||||||
qvq-plus-2025-05-15 又称qvq-plus-0515 | 快照版 | |||||||
国际
在美国部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源仅限于美国境内。
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大思维链长度 | 最大回复长度 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | |||||||
qvq-max 当前与 qvq-max-2025-03-25能力相同 | 稳定版 | 131,072 | 106,496 单图最大16384 | 16,384 | 8,192 | 8.807元 | 35.228元 | 无免费额度 |
qvq-max-latest 始终与最新快照版能力相同 | 最新版 | |||||||
qvq-max-2025-03-25 又称qvq-max-0325 | 快照版 | |||||||
通义千问VL
通义千问VL是具有视觉(图像)理解能力的文本生成模型,不仅能进行OCR(图片文字识别),还能进一步总结和推理,例如从商品照片中提取属性,根据习题图进行解题等。使用方法 | API参考 | 在线体验
通义千问VL模型按输入和输出的总Token数进行计费。图像Token的计算规则视觉理解。
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 版本 | 模式 | 上下文长度 | 最大输入 | 最长思维链 | 最大输出 | 输入成本 | 输出成本 思维链+输出 | 免费额度 |
(Token数) | (每百万Token) | ||||||||
qwen3-vl-plus 当前与qwen3-vl-plus-2025-09-23能力相同 Batch调用半价 | 稳定版 | 思考 | 262,144 | 258,048 单图最大16384 | 81,920 | 32,768 | 阶梯计价,请参见表格下方说明。 | 各100万Token 有效期:百炼开通后90天内 | |
非思考 | 260,096 单图最大16384 | - | |||||||
qwen3-vl-plus-2025-12-19 | 快照版 | 思考 | 258,048 单图最大16384 | 81,920 | |||||
非思考 | 260,096 单图最大16384 | - | |||||||
qwen3-vl-plus-2025-09-23 | 快照版 | 思考 | 258,048 单图最大16384 | 81,920 | |||||
非思考 | 260,096 单图最大16384 | - | |||||||
qwen3-vl-flash 当前与qwen3-vl-flash-2025-10-15能力相同 Batch调用半价 | 稳定版 | 思考 | 258,048 单图最大16384 | 81,920 | |||||
非思考 | 260,096 单图最大16384 | - | |||||||
qwen3-vl-flash-2026-01-22 | 快照版 | 思考 | 258,048 单图最大16384 | 81,920 | |||||
非思考 | 260,096 单图最大16384 | - | |||||||
qwen3-vl-flash-2025-10-15 | 快照版 | 思考 | 258,048 单图最大16384 | 81,920 | |||||
非思考 | 260,096 单图最大16384 | - | |||||||
以上模型根据本次请求输入的 Token数,采取阶梯计费。思考模式与非思考模式的输入输出价格相同。
qwen3-vl-plus系列
单次请求的输入Token数 | 输入价格(每百万Token) | 输出价格(每百万Token) |
0<Token≤32K | 1元 | 10元 |
32K<Token≤128K | 1.5元 | 15元 |
128K<Token≤256K | 3元 | 30元 |
qwen3-vl-flash系列
单次请求的输入Token数 | 输入价格(每百万Token) | 输出价格(每百万Token) |
0<Token≤32K | 0.15元 | 1.5元 |
32K<Token≤128K | 0.3元 | 3元 |
128K<Token≤256K | 0.6元 | 6元 |
全球
在全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。
模型名称 | 版本 | 模式 | 上下文长度 | 最大输入 | 最长思维链 | 最大输出 | 输入成本 | 输出成本 思维链+输出 | 免费额度 |
(Token数) | (每百万Token) | ||||||||
qwen3-vl-plus 当前与qwen3-vl-plus-2025-09-23能力相同 | 稳定版 | 思考 | 262,144 | 258,048 单图最大16384 | 81,920 | 32,768 | 阶梯计价,请参见表格下方说明。 | 无免费额度 | |
非思考 | 260,096 单图最大16384 | - | |||||||
qwen3-vl-plus-2025-09-23 | 快照版 | 思考 | 258,048 单图最大16384 | 81,920 | |||||
非思考 | 260,096 单图最大16384 | - | |||||||
qwen3-vl-flash 当前与qwen3-vl-flash-2025-10-15能力相同 | 稳定版 | 思考 | 258,048 单图最大16384 | 81,920 | |||||
非思考 | 260,096 单图最大16384 | - | |||||||
qwen3-vl-flash-2025-10-15 | 快照版 | 思考 | 258,048 单图最大16384 | 81,920 | |||||
非思考 | 260,096 单图最大16384 | - | |||||||
以上模型根据本次请求输入的 Token数,采取阶梯计费。思考模式与非思考模式的输入输出价格相同。
qwen3-vl-plus系列
单次请求的输入Token数 | 输入价格(每百万Token) | 输出价格(每百万Token) |
0<Token≤32K | 1.468元 | 11.743元 |
32K<Token≤128K | 2.202元 | 17.614元 |
128K<Token≤256K | 4.404元 | 35.228元 |
qwen3-vl-flash系列
单次请求的输入Token数 | 输入价格(每百万Token) | 输出价格(每百万Token) |
0<Token≤32K | 0.367元 | 2.936元 |
32K<Token≤128K | 0.55元 | 4.404元 |
128K<Token≤256K | 0.881元 | 7.046元 |
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 版本 | 模式 | 上下文长度 | 最大输入 | 最长思维链 | 最大输出 | 输入成本 | 输出成本 思维链+输出 | 免费额度 |
(Token数) | (每百万Token) | ||||||||
qwen3-vl-plus 当前与qwen3-vl-plus-2025-09-23能力相同 | 稳定版 | 思考 | 262,144 | 258,048 单图最大16384 | 81,920 | 32,768 | 阶梯计价,请参见表格下方说明。 | 无免费额度 | |
非思考 | 260,096 单图最大16384 | - | |||||||
qwen3-vl-plus-2025-12-19 | 快照版 | 思考 | 258,048 单图最大16384 | 81,920 | |||||
非思考 | 260,096 单图最大16384 | - | |||||||
qwen3-vl-plus-2025-09-23 | 快照版 | 思考 | 258,048 单图最大16384 | 81,920 | |||||
非思考 | 260,096 单图最大16384 | - | |||||||
qwen3-vl-flash 当前与qwen3-vl-flash-2025-10-15能力相同 | 稳定版 | 思考 | 258,048 单图最大16384 | 81,920 | |||||
非思考 | 260,096 单图最大16384 | - | |||||||
qwen3-vl-flash-2025-10-15 | 快照版 | 思考 | 258,048 单图最大16384 | 81,920 | |||||
非思考 | 260,096 单图最大16384 | - | |||||||
以上模型根据本次请求输入的 Token数,采取阶梯计费。思考模式与非思考模式的输入输出价格相同。
qwen3-vl-plus系列
单次请求的输入Token数 | 输入价格(每百万Token) | 输出价格(每百万Token) |
0<Token≤32K | 1.468元 | 11.743元 |
32K<Token≤128K | 2.202元 | 17.614 元 |
128K<Token≤256K | 4.404元 | 35.228元 |
qwen3-vl-flash系列
单次请求的输入Token数 | 输入价格(每百万Token) | 输出价格(每百万Token) |
0<Token≤32K | 0.367元 | 2.936元 |
32K<Token≤128K | 0.55元 | 4.404元 |
128K<Token≤256K | 0.881元 | 7.046元 |
qwen3-vl-flash-2026-01-22模型有效融合了思考模式与非思考模式,相较于 2025 年 10 月 15 日的快照版本,显著提升了模型的整体性能,在通用视觉识别、安防、巡店、巡检、拍照解题等业务场景中实现了更高准确率的推理。
美国
在美国部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源仅限于美国境内。
模型名称 | 版本 | 模式 | 上下文长度 | 最大输入 | 最长思维链 | 最大输出 | 输入成本 | 输出成本 思维链+输出 | 免费额度 |
(Token数) | (每百万Token) | ||||||||
qwen3-vl-flash-us 当前与qwen3-vl-flash-2025-10-15-us能力相同 | 稳定版 | 思考 | 258,048 单图最大16384 | 81,920 | 32,768 | 阶梯计价,请参见表格下方说明。 | 无免费额度 | ||
非思考 | 260,096 单图最大16384 | - | |||||||
qwen3-vl-flash-2025-10-15us | 快照版 | 思考 | 258,048 单图最大16384 | 81,920 | |||||
非思考 | 260,096 单图最大16384 | - | |||||||
以上模型根据本次请求输入的 Token数,采取阶梯计费。思考模式与非思考模式的输入输出价格相同。
单次请求的输入Token数 | 输入价格(每百万Token) | 输出价格(每百万Token) |
0<Token≤32K | 0.367元 | 2.936元 |
32K<Token≤128K | 0.55元 | 4.404元 |
128K<Token≤256K | 0.881元 | 7.046元 |
qwen3-vl-flash-2026-01-22模型有效融合了思考模式与非思考模式,相较于 2025 年 10 月 15 日的快照版本,显著提升了模型的整体性能,在通用视觉识别、安防、巡店、巡检、拍照解题等业务场景中实现了更高准确率的推理。
通义千问OCR
通义千问OCR模型是专用于文字提取的模型。相较于通义千问VL模型,它更专注于文档、表格、试题、手写体文字等类型图像的文字提取能力。它能够识别多种语言,包括英语、法语、日语、韩语、德语、俄语和意大利语等。使用方法 | API参考|在线体验
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入单价 | 输出单价 | 免费额度 |
(Token数) | (每百万Token) | ||||||
qwen-vl-ocr 当前与qwen-vl-ocr-2025-08-28能力相同 Batch 调用半价 | 稳定版 | 34,096 | 30,000 单图最大30000 | 4,096 | 5元 | 5元 | 各100万Token 有效期:百炼开通后90天内 |
qwen-vl-ocr-latest 始终与最新版能力相同 Batch 调用半价 | 最新版 | 38,192 | 8,192 | 0.3元 | 0.5元 | ||
qwen-vl-ocr-2025-11-20 基于Qwen3-VL架构,大幅提升文档解析、文字定位能力。 | 快照版 | ||||||
qwen-vl-ocr-2025-08-28 又称qwen-vl-ocr-0828 | 34,096 | 4,096 | 5元 | 5元 | |||
qwen-vl-ocr-2025-04-13 又称qwen-vl-ocr-0413 | |||||||
qwen-vl-ocr-2024-10-28 又称qwen-vl-ocr-1028 | |||||||
全球
在全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入单价 | 输出单价 | 免费额度 |
(Token数) | (每百万Token) | ||||||
qwen-vl-ocr 当前与qwen-vl-ocr-2025-11-20能力相同 | 稳定版 | 34,096 | 30,000 单图最大30000 | 4,096 | 0.514元 | 1.174元 | 无免费额度 |
qwen-vl-ocr-2025-11-20 又称qwen-vl-ocr-1120 基于Qwen3-VL架构,大幅提升文档解析、文字定位能力。 | 快照版 | 38,192 | 8,192 | 0.514元 | 1.174元 | ||
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入单价 | 输出单价 | 免费额度 |
(Token数) | (每百万Token) | ||||||
qwen-vl-ocr | 稳定版 | 34,096 | 30,000 单图最大30000 | 4,096 | 5.284元 | 5.284元 | 无免费额度 |
qwen-vl-ocr-2025-11-20 又称qwen-vl-ocr-1120 基于Qwen3-VL架构,大幅提升文档解析、文字定位能力。 | 快照版 | 38,192 | 8,192 | 0.514元 | 1.174元 | ||
通义千问Audio
通义千问Audio是音频理解模型,支持输入多种音频(人类语音、自然音、音乐、歌声)和文本,并输出文本。该模型不仅能对输入的音频进行转录,还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。使用方法
通义千问Audio模型按输入和输出的总Token数进行计费。
音频转换为Token的规则:每一秒钟的音频对应25个Token。若音频时长不足1秒,则按25个Token计算。
仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | ||||||
qwen-audio-turbo 当前等同qwen-audio-turbo-2024-08-07 | 稳定版 | 8,000 | 6,000 | 1,500 | 目前仅供免费体验。 免费额度用完后不可调用,推荐使用Qwen-Omni作为替代模型 | 10万Token 有效期:阿里云百炼开通后90天内 | |
qwen-audio-turbo-latest 始终等同最新快照版 | 最新版 | 8,192 | 6,144 | 2,048 | |||
qwen-audio-turbo-2024-12-04 又称qwen-audio-turbo-1204 较上个快照版本大幅提升语音识别准确率,且新增了语音聊天能力。 | 快照版 | ||||||
qwen-audio-turbo-2024-08-07 又称qwen-audio-turbo-0807 | 8,000 | 6,000 | 1,500 | ||||
通义千问数学模型
通义千问数学模型是专门用于数学解题的语言模型。使用方法 | API参考 | 在线体验
仅支持中国内地(北京)地域。
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 输入价格 | 输出价格 | 上下文长度 | 最大输入 | 最大输出 | 免费额度 |
(每百万Token) | (Token数) | |||||
qwen-math-plus | 4元 | 12元 | 4,096 | 3,072 | 3,072 | 各100万Token 有效期:百炼开通后90天内 |
qwen-math-turbo | 2元 | 6元 | ||||
通义千问Coder
通义千问代码模型。最新的 Qwen3-Coder-Plus 系列模型是基于 Qwen3 的代码生成模型,具有强大的Coding Agent能力,擅长工具调用和环境交互,能够实现自主编程,代码能力卓越的同时兼具通用能力。使用方法 | API参考 | 在线体验
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | ||||||
qwen3-coder-plus 当前与qwen3-coder-plus-2025-09-23能力相同 | 稳定版 | 1,000,000 | 997,952 | 65,536 | 阶梯计价,请参见表格下方说明。 | 各100万Token 有效期:百炼开通后90天内 | |
qwen3-coder-plus-2025-09-23 | 快照版 | ||||||
qwen3-coder-plus-2025-07-22 | 快照版 | ||||||
qwen3-coder-flash 当前与qwen3-coder-flash-2025-07-28能力相同 | 稳定版 | ||||||
qwen3-coder-flash-2025-07-28 | 快照版 | ||||||
上述模型根据本次请求输入的Token数,采取阶梯计费。
qwen3-coder-plus系列
qwen3-coder-plus、qwen3-coder-plus-2025-09-23和qwen3-coder-plus-2025-07-22价格如下,其中 qwen3-coder-plus 支持上下文缓存,命中隐式缓存的输入文本按单价的 20% 计费,命中显式缓存的输入文本按单价的 10% 计费。
单次请求的输入Token数 | 输入成本(每百万Token) | 输出成本(每百万Token) |
0<Token≤32K | 4元 | 16元 |
32K<Token≤128K | 6元 | 24元 |
128K<Token≤256K | 10元 | 40元 |
256K<Token≤1M | 20元 | 200元 |
qwen3-coder-flash系列
qwen3-coder-flash 和 qwen3-coder-flash-2025-07-28 价格如下,其中 qwen3-coder-flash 支持上下文缓存,命中隐式缓存的输入文本按单价的 20% 计费,命中显式缓存的输入文本按单价的 10% 计费。
单次请求的输入Token数 | 输入成本(每百万Token) | 输出成本(每百万Token) |
0<Token≤32K | 1元 | 4元 |
32K<Token≤128K | 1.5元 | 6元 |
128K<Token≤256K | 2.5元 | 10元 |
256K<Token≤1M | 5元 | 25元 |
全球
在全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | ||||||
qwen3-coder-plus 当前与qwen3-coder-plus-2025-09-23能力相同 | 稳定版 | 1,000,000 | 997,952 | 65,536 | 阶梯计价,请参见表格下方说明。 | 无免费额度 | |
qwen3-coder-plus-2025-09-23 | 快照版 | ||||||
qwen3-coder-plus-2025-07-22 | 快照版 | ||||||
qwen3-coder-flash 当前与qwen3-coder-flash-2025-07-28能力相同 | 稳定版 | ||||||
qwen3-coder-flash-2025-07-28 | 快照版 | ||||||
上述模型根据本次请求输入的Token数,采取阶梯计费。
qwen3-coder-plus系列
qwen3-coder-plus、qwen3-coder-plus-2025-09-23 和 qwen3-coder-plus-2025-07-22 价格如下,其中 qwen3-coder-plus 支持上下文缓存,命中隐式缓存的输入文本按单价的 20% 计费,命中显式缓存的输入文本按单价的 10% 计费。
单次请求的输入Token数 | 输入成本(每百万Token) | 输出成本(每百万Token) |
0<Token≤32K | 7.339元 | 36.696元 |
32K<Token≤128K | 13.211元 | 66.053元 |
128K<Token≤256K | 22.018元 | 110.089元 |
256K<Token≤1M | 44.035元 | 440.354元 |
qwen3-coder-flash系列
qwen3-coder-flash 和 qwen3-coder-flash-2025-07-28 价格如下,其中 qwen3-coder-flash 支持上下文缓存,命中隐式缓存的输入文本按单价的 20% 计费,命中显式缓存的输入文本按单价的 10% 计费。
单次请求的输入Token数 | 输入成本(每百万Token) | 输出成本(每百万Token) |
0<Token≤32K | 2.202元 | 11.009元 |
32K<Token≤128K | 3.67元 | 18.348元 |
128K<Token≤256K | 5.871元 | 29.357元 |
256K<Token≤1M | 11.743元 | 70.457元 |
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | ||||||
qwen3-coder-plus 当前与qwen3-coder-plus-2025-09-23能力相同 | 稳定版 | 1,000,000 | 997,952 | 65,536 | 阶梯计价,请参见表格下方说明。 | 无免费额度 | |
qwen3-coder-plus-2025-09-23 | 快照版 | ||||||
qwen3-coder-plus-2025-07-22 | 快照版 | ||||||
qwen3-coder-flash 当前与qwen3-coder-flash-2025-07-28能力相同 | 稳定版 | ||||||
qwen3-coder-flash-2025-07-28 | 快照版 | ||||||
上述模型根据本次请求输入的Token数,采取阶梯计费。
qwen3-coder-plus系列
qwen3-coder-plus、qwen3-coder-plus-2025-09-23 和 qwen3-coder-plus-2025-07-22 价格如下,其中 qwen3-coder-plus 支持上下文缓存,命中隐式缓存的输入文本按单价的 20% 计费,命中显式缓存的输入文本按单价的 10% 计费。
单次请求的输入Token数 | 输入成本(每百万Token) | 输出成本(每百万Token) |
0<Token≤32K | 7.339元 | 36.696元 |
32K<Token≤128K | 13.211元 | 66.053元 |
128K<Token≤256K | 22.018元 | 110.089元 |
256K<Token≤1M | 44.035元 | 440.354元 |
qwen3-coder-flash系列
qwen3-coder-flash 和 qwen3-coder-flash-2025-07-28 价格如下,其中 qwen3-coder-flash 支持上下文缓存,命中隐式缓存的输入文本按单价的 20% 计费,命中显式缓存的输入文本按单价的 10% 计费。
单次请求的输入Token数 | 输入成本(每百万Token) | 输出成本(每百万Token) |
0<Token≤32K | 2.202元 | 11.009元 |
32K<Token≤128K | 3.67元 | 18.348元 |
128K<Token≤256K | 5.871元 | 29.357元 |
256K<Token≤1M | 11.743元 | 70.457元 |
通义千问翻译模型
基于 Qwen 3全面升级的旗舰级翻译大模型,支持92个语种(包括中、英、日、韩、法、西、德、泰、印尼、越、阿等)互译,模型性能和翻译效果全面升级,提供更稳定的术语定制、格式还原度、领域提示能力,让译文更精准、自然。使用方法 | 在线体验
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | |||||
qwen-mt-plus 属于Qwen3-MT | 16,384 | 8,192 | 8,192 | 1.8元 | 5.4元 | 各100万Token 有效期:百炼开通后90天内 |
qwen-mt-flash 属于Qwen3-MT | 0.7元 | 1.95元 | ||||
qwen-mt-lite 属于Qwen3-MT | 0.6元 | 1.6元 | ||||
qwen-mt-turbo 属于Qwen3-MT | 0.7元 | 1.95元 | ||||
全球
在全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | |||||
qwen-mt-plus 属于Qwen3-MT | 16,384 | 8,192 | 8,192 | 18.055元 | 54.09元 | 无免费额度 |
qwen-mt-flash 属于Qwen3-MT | 1.174元 | 3.596元 | ||||
qwen-mt-lite 属于Qwen3-MT | 0.881元 | 2.642元 | ||||
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | |||||
qwen-mt-plus 属于Qwen3-MT | 16,384 | 8,192 | 8,192 | 18.055元 | 54.09元 | 无免费额度 |
qwen-mt-flash 属于Qwen3-MT | 1.174元 | 3.596元 | ||||
qwen-mt-lite 属于Qwen3-MT | 0.881元 | 2.642元 | ||||
qwen-mt-turbo 属于Qwen3-MT | 1.174元 | 3.596元 | ||||
通义千问数据挖掘模型
通义千问数据挖掘模型可以提取文档中的结构化信息并用于数据标注和内容审核等领域。使用方法 | API参考
仅支持中国内地(北京)地域。
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | |||||
qwen-doc-turbo | 262,144 | 253,952 | 32,768 | 0.6元 | 1元 | 无免费额度 |
通义千问深入研究模型
通义千问深入研究模型可以拆解复杂问题,结合互联网搜索进行推理分析并生成研究报告。使用方法 | API参考
仅支持中国内地(北京)地域。
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | |||||
qwen-deep-research | 1,000,000 | 997,952 | 32,768 | 54元 | 163元 | 无免费额度 |
文本生成-通义千问-开源版
模型名称中,xxb表示参数规模,例如qwen2-72b-instruct表示参数规模为72B,即720亿。
百炼支持调用通义千问的开源版,您无需本地部署模型。对于开源版,建议使用Qwen3模型。
Qwen3
2025 年 9月发布的 qwen3-next-80b-a3b-thinking 仅支持思考模式,相较于qwen3-235b-a22b-thinking-2507提升了指令遵循能力,总结回复更加精简。
2025 年 9月发布的 qwen3-next-80b-a3b-instruct 仅支持非思考模式,相较于qwen3-235b-a22b-instruct-2507增强了中文理解、逻辑推理及文本生成能力。
2025 年 7月发布的 qwen3-235b-a22b-thinking-2507、qwen3-30b-a3b-thinking-2507 模型仅支持思考模式,是qwen3-235b-a22b(思考模式)与qwen3-30b-a3b (思考模式)的升级版。
2025 年 7月发布的 qwen3-235b-a22b-instruct-2507、qwen3-30b-a3b-instruct-2507 模型仅支持非思考模式,是qwen3-235b-a22b(非思考模式)与qwen3-30b-a3b (非思考模式)的升级版。
2025 年 4月发布的 Qwen3 模型支持思考模式和非思考模式,您可以通过 enable_thinking 参数实现两种模式的切换。除此之外,Qwen3 模型的能力得到了大幅提升:
推理能力:在数学、代码和逻辑推理等评测中,显著超过 QwQ 和同尺寸的非推理模型,达到同规模业界顶尖水平。
人类偏好能力:创意写作、角色扮演、多轮对话、指令遵循能力均大幅提升,通用能力显著超过同尺寸模型。
Agent 能力:在推理、非推理两种模式下都达到业界领先水平,能精准调用外部工具。
多语言能力:支持100多种语言和方言,多语言翻译、指令理解、常识推理能力都明显提升。
回复格式:修复了之前版本存在的回复格式的问题,如异常 Markdown、中间截断、错误输出 boxed 等问题。
2025 年 4月发布的Qwen3 开源模型在思考模式下不支持非流式输出方式。
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 模式 | 上下文长度 | 最大输入 | 最大思维链长度 | 最大回复长度 | 输入成本 | 输出成本 思维链+输出 | 免费额度 |
(Token数) | (每百万Token) | |||||||
qwen3-next-80b-a3b-thinking | 仅思考模式 | 131,072 | 126,976 | 81,920 | 32,768 | 1元 | 10元 | 各100万 Token 有效期:百炼开通后90天内 |
qwen3-next-80b-a3b-instruct | 仅非思考模式 | 129,024 | - | 4元 | ||||
qwen3-235b-a22b-thinking-2507 | 仅思考模式 | 126,976 | 81,920 | 2元 | 20元 | |||
qwen3-235b-a22b-instruct-2507 | 仅非思考模式 | 129,024 | - | 8元 | ||||
qwen3-30b-a3b-thinking-2507 | 仅思考模式 | 126,976 | 81,920 | 0.75元 | 7.5元 | |||
qwen3-30b-a3b-instruct-2507 | 仅非思考模式 | 129,024 | - | 3元 | ||||
qwen3-235b-a22b 本模型与以下模型均于2025 年 4月发布 | 非思考 | 129,024 | - | 16,384 | 2元 | 8元 | ||
思考 | 98,304 | 38,912 | 20元 | |||||
qwen3-32b | 非思考 | 129,024 | - | 2元 | 8元 | |||
思考 | 98,304 | 38,912 | 20元 | |||||
qwen3-30b-a3b | 非思考 | 129,024 | - | 0.75元 | 3元 | |||
思考 | 98,304 | 38,912 | 7.5元 | |||||
qwen3-14b | 非思考 | 129,024 | - | 8,192 | 1元 | 4元 | ||
思考 | 98,304 | 38,912 | 10元 | |||||
qwen3-8b | 非思考 | 129,024 | - | 0.5元 | 2元 | |||
思考 | 98,304 | 38,912 | 5元 | |||||
qwen3-4b | 非思考 | 129,024 | - | 0.3元 | 1.2元 | |||
思考 | 98,304 | 38,912 | 3元 | |||||
qwen3-1.7b | 非思考 | 32,768 | 30,720 | - | 1.2元 | |||
思考 | 28,672 | 与输入相加不超过30,720 | 3元 | |||||
qwen3-0.6b | 非思考 | 30,720 | - | 1.2元 | ||||
思考 | 28,672 | 与输入相加不超过30,720 | 3元 | |||||
全球
在全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。
模型名称 | 模式 | 上下文长度 | 最大输入 | 最大思维链长度 | 最大回复长度 | 输入成本 | 输出成本 思维链+输出 | 免费额度 |
(Token数) | (每百万Token) | |||||||
qwen3-next-80b-a3b-thinking | 仅支持思考模式 | 131,072 | 126,976 | 81,920 | 32,768 | 1.101元 | 8.807元 | 无免费额度 |
qwen3-next-80b-a3b-instruct | 仅非思考模式 | 129,024 | - | |||||
qwen3-235b-a22b-thinking-2507 | 仅支持思考模式 | 126,976 | 81,920 | 1.688元 | 16.88元 | |||
qwen3-235b-a22b-instruct-2507 | 仅非思考模式 | 129,024 | - | 6.752元 | ||||
qwen3-30b-a3b-thinking-2507 | 仅支持思考模式 | 126,976 | 81,920 | 1.468元 | 17.614元 | |||
qwen3-30b-a3b-instruct-2507 | 仅非思考模式 | 129,024 | - | 5.871元 | ||||
qwen3-235b-a22b | 非思考 | 129,024 | - | 16,384 | 5.137元 | 20.55元 | ||
思考 | 98,304 | 38,912 | 61.65元 | |||||
qwen3-32b | 非思考 | 129,024 | - | 1.174元 | 4.697元 | |||
思考 | 98,304 | 38,912 | ||||||
qwen3-30b-a3b | 非思考 | 129,024 | - | 1.468元 | 5.871元 | |||
思考 | 98,304 | 38,912 | 17.614元 | |||||
qwen3-14b | 非思考 | 129,024 | - | 8,192 | 2.569元 | 10.275元 | ||
思考 | 98,304 | 38,912 | 30.825元 | |||||
qwen3-8b | 非思考 | 129,024 | - | 1.321元 | 5.137元 | |||
思考 | 98,304 | 38,912 | 15.412元 | |||||
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 模式 | 上下文长度 | 最大输入 | 最大思维链长度 | 最大回复长度 | 输入成本 | 输出成本 思维链+输出 | 免费额度 |
(Token数) | (每百万Token) | |||||||
qwen3-next-80b-a3b-thinking | 仅支持思考模式 | 131,072 | 126,976 | 81,920 | 32,768 | 1.101元 | 8.807元 | 无免费额度 |
qwen3-next-80b-a3b-instruct | 仅非思考模式 | 129,024 | - | |||||
qwen3-235b-a22b-thinking-2507 | 仅支持思考模式 | 126,976 | 81,920 | 1.688元 | 16.88元 | |||
qwen3-235b-a22b-instruct-2507 | 仅非思考模式 | 129,024 | - | 6.752元 | ||||
qwen3-30b-a3b-thinking-2507 | 仅支持思考模式 | 126,976 | 81,920 | 1.468元 | 17.614元 | |||
qwen3-30b-a3b-instruct-2507 | 仅非思考模式 | 129,024 | - | 5.871元 | ||||
qwen3-235b-a22b 本模型与以下模型均于2025 年 4月发布 | 非思考 | 129,024 | - | 16,384 | 5.137元 | 20.55元 | ||
思考 | 98,304 | 38,912 | 61.65元 | |||||
qwen3-32b | 非思考 | 129,024 | - | 1.174元 | 4.697元 | |||
思考 | 98,304 | 38,912 | ||||||
qwen3-30b-a3b | 非思考 | 129,024 | - | 1.468元 | 5.871元 | |||
思考 | 98,304 | 38,912 | 17.614元 | |||||
qwen3-14b | 非思考 | 129,024 | - | 8,192 | 2.569元 | 10.275元 | ||
思考 | 98,304 | 38,912 | 30.825元 | |||||
qwen3-8b | 非思考 | 129,024 | - | 1.321元 | 5.137元 | |||
思考 | 98,304 | 38,912 | 15.412元 | |||||
qwen3-4b | 非思考 | 129,024 | - | 0.807元 | 3.082元 | |||
思考 | 98,304 | 38,912 | 9.247元 | |||||
qwen3-1.7b | 非思考 | 32,768 | 30,720 | - | 3.082元 | |||
思考 | 28,672 | 与输入相加不超过30,720 | 9.247元 | |||||
qwen3-0.6b | 非思考 | 30,720 | - | 3.082元 | ||||
思考 | 28,672 | 与输入相加不超过30,720 | 9.247元 | |||||
对于 Qwen3 模型,开启思考模式时如果没有输出思考过程,按非思考模式价格进行收费。
QwQ-开源版
基于 Qwen2.5-32B 模型训练的 QwQ 推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、LiveCodeBench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平,各指标均显著超过同样基于 Qwen2.5-32B 的 DeepSeek-R1-Distill-Qwen-32B。使用方法|API 参考
仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 上下文长度 | 最大输入 | 最大思维链长度 | 最大回复长度 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | ||||||
qwq-32b | 131,072 | 98,304 | 32,768 | 8,192 | 2元 | 6元 | 100万 Token 有效期:百炼开通后90天内 |
QwQ-Preview
qwq-32b-preview 模型是由 Qwen 团队于2024年开发的实验性研究模型,专注于增强 AI 推理能力,尤其是数学和编程领域。qwq-32b-preview 模型的局限性请参见QwQ官方博客。使用方法 | API参考|在线体验
仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | |||||
qwq-32b-preview Batch调用半价 | 32,768 | 30,720 | 16,384 | 2元 | 6元 | 100万Token 有效期:百炼开通后90天内 |
Qwen2.5
Qwen2
Qwen1.5
QVQ
qvq-72b-preview模型是由 Qwen 团队开发的实验性研究模型,专注于提升视觉推理能力,尤其在数学推理领域。qvq-72b-preview模型的局限性请参见QVQ官方博客。使用方法 | API参考
如果希望模型先输出思考过程再输出回答内容,请使用商业版模型QVQ。
仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万 Token) | |||||
qvq-72b-preview | 32,768 | 16,384 单图最大16384 | 16,384 | 12元 | 36元 | 10万Token 有效期:百炼开通后90天内 |
Qwen-Omni
基于Qwen2.5训练的全新多模态理解生成大模型,支持文本、图像、语音、视频输入理解,具备文本和语音同时流式生成的能力,多模态内容理解速度显著提升。使用方法|API 参考
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 免费额度 |
(Token数) | ||||
qwen2.5-omni-7b | 32,768 | 30,720 | 2,048 | 100万Token(不区分模态) 有效期:百炼开通后90天 |
开源版模型的免费额度用完后,输入与输出的计费规则如下:
|
| ||||||||||||||
计费示例:某次请求输入了100万 Token 的文本和100万 Token 的图片,输出了100万 Token 的文本和100万 Token 的音频,则该请求花费:0.6元(文本输入)+ 2元(图片输入)+ 76元(音频输出)= 78.6元。 | |||||||||||||||
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 免费额度 |
(Token数) | ||||
qwen2.5-omni-7b | 32,768 | 30,720 | 2,048 | 无免费额度 |
输入与输出的计费规则如下:
|
|
Qwen3-Omni-Captioner
Qwen3-Omni-Captioner以通义千问3-Omni为基座的开源模型,无需任何提示,自动为复杂语音、环境声、音乐、影视声效等生成精准、全面的描述,能识别说话人情绪、音乐元素(如风格、乐器)、敏感信息等,适用于音频内容分析、安全审核、意图识别、音频剪辑等多个领域。使用方法 | API 参考
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | |||||
qwen3-omni-30b-a3b-captioner | 65,536 | 32,768 | 32,768 | 15.8元 | 12.7元 | 100万Token 有效期:阿里云百炼开通后90天内 |
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | |||||
qwen3-omni-30b-a3b-captioner | 65,536 | 32,768 | 32,768 | 27.962元 | 22.458元 | 无免费额度 |
Qwen-VL
相较于Qwen2.5-VL,Qwen3-VL模型能力有极大提升:
智能体交互:可操作电脑或手机界面,识别 GUI 元素、理解功能、调用工具执行任务,在 OS World 等评测中达到顶尖水平。
视觉编码:可通过图像或视频生成代码,用于将设计图、网站截图等生成HTML、CSS、JS 代码。
空间感知:支持二维和三维定位,精准判断物体方位、视角变化、遮挡关系。
长视频理解:支持长达20分钟的视频内容理解,并能精确定位到秒级时刻。
深度思考:具有深度思考能力, 擅长捕捉细节、分析因果,在 MathVista、MMMU 等评测中达到顶尖水平。
文字识别:支持语言扩展至 33种,在复杂光线、模糊、倾斜等场景下表现更稳定;显著提升生僻字、古籍字、专业术语的识别准确率。
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 模式 | 上下文长度 | 最大输入 | 最大思维链长度 | 最大回复长度 | 输入成本 | 输出成本 思维链+输出 | 免费额度 |
(Token数) | (每百万Token) | |||||||
qwen3-vl-235b-a22b-thinking | 仅思考模式 | 131,072 | 126,976 | 81,920 | 32,768 | 2元 | 20元 | 各100万 Token 有效期:百炼开通后90天内 |
qwen3-vl-235b-a22b-instruct | 仅非思考模式 | 129,024 | - | 8元 | ||||
qwen3-vl-32b-thinking | 仅思考模式 | 126,976 | 81,920 | 2元 | 20元 | |||
qwen3-vl-32b-instruct | 仅非思考模式 | 129,024 | - | 8元 | ||||
qwen3-vl-30b-a3b-thinking | 仅思考模式 | 126,976 | 81,920 | 0.75元 | 7.5元 | |||
qwen3-vl-30b-a3b-instruct | 仅非思考模式 | 129,024 | - | 3元 | ||||
qwen3-vl-8b-thinking | 仅思考模式 | 126,976 | 81,920 | 0.5元 | 5元 | |||
qwen3-vl-8b-instruct | 仅非思考模式 | 129,024 | - | 2元 | ||||
全球
在全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。
模型名称 | 模式 | 上下文长度 | 最大输入 | 最大思维链长度 | 最大回复长度 | 输入成本 | 输出成本 思维链+输出 | 免费额度 |
(Token数) | (每百万Token) | |||||||
qwen3-vl-235b-a22b-thinking | 仅思考模式 | 131,072 | 126,976 | 81,920 | 32,768 | 2.936元 | 29.357元 | 无免费额度 |
qwen3-vl-235b-a22b-instruct | 仅非思考模式 | 129,024 | - | 11.743元 | ||||
qwen3-vl-32b-thinking | 仅思考模式 | 126,976 | 81,920 | 1.174元 | 4.697元 | |||
qwen3-vl-32b-instruct | 仅非思考模式 | 129,024 | - | |||||
qwen3-vl-30b-a3b-thinking | 仅思考模式 | 126,976 | 81,920 | 1.468元 | 17.614元 | |||
qwen3-vl-30b-a3b-instruct | 仅非思考模式 | 129,024 | - | 5.871元 | ||||
qwen3-vl-8b-thinking | 仅思考模式 | 126,976 | 81,920 | 1.321元 | 15.412元 | |||
qwen3-vl-8b-instruct | 仅非思考模式 | 129,024 | - | 5.137元 | ||||
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 模式 | 上下文长度 | 最大输入 | 最大思维链长度 | 最大回复长度 | 输入成本 | 输出成本 思维链+输出 | 免费额度 |
(Token数) | (每百万Token) | |||||||
qwen3-vl-235b-a22b-thinking | 仅思考模式 | 126,976 | 81,920 | 2.936元 | 29.357元 | 无免费额度 | ||
qwen3-vl-235b-a22b-instruct | 仅非思考模式 | 129,024 | - | 11.743元 | ||||
qwen3-vl-32b-thinking | 仅思考模式 | 131,072 | 126,976 | 81,920 | 32,768 | 1.174元 | 4.697元 | |
qwen3-vl-32b-instruct | 仅非思考模式 | 129,024 | - | 4.697元 | ||||
qwen3-vl-30b-a3b-thinking | 仅思考模式 | 126,976 | 81,920 | 1.468元 | 17.614元 | |||
qwen3-vl-30b-a3b-instruct | 仅非思考模式 | 129,024 | - | 5.871元 | ||||
qwen3-vl-8b-thinking | 仅思考模式 | 126,976 | 81,920 | 1.321元 | 15.412元 | |||
qwen3-vl-8b-instruct | 仅非思考模式 | 129,024 | - | 5.137元 | ||||
Qwen-Audio
阿里云的通义千问Audio开源版。使用方法
仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万 Token) | |||||
qwen2-audio-instruct 相比qwen-audio-chat提升了音频理解能力,且新增了语音聊天能力。 | 8,000 | 6,000 | 1,500 | 目前仅供免费体验。 免费额度用完后不可调用,推荐使用Qwen-Omni作为替代模型 | 10万Token 有效期:阿里云百炼开通后90天内 | |
qwen-audio-chat | ||||||
Qwen-Math
基于Qwen模型构建的专门用于数学解题的语言模型。Qwen2.5-Math支持中文和英文,并整合了多种推理方法,包括CoT(Chain of Thought)、PoT(Program of Thought)和 TIR(Tool-Integrated Reasoning)。使用方法 | API参考 | 在线体验
仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 输入价格 | 输出价格 | 上下文长度 | 最大输入 | 最大输出 | 免费额度 |
(每百万Token) | (Token数) | |||||
qwen2.5-math-72b-instruct | 4元 | 12元 | 4,096 | 3,072 | 3,072 | 各100万Token 有效期:百炼开通后90天内 |
qwen2.5-math-7b-instruct | 1元 | 2元 | ||||
qwen2.5-math-1.5b-instruct | 限时免费 | 限时免费 | ||||
Qwen-Coder
通义千问代码模型开源版。最新的 Qwen3-Coder系列具有强大的Coding Agent能力,擅长工具调用和环境交互,能够实现自主编程、代码能力卓越的同时兼具通用能力。使用方法 | API参考 | 在线体验
中国内地
在中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | |||||
qwen3-coder-480b-a35b-instruct | 262,144 | 204,800 | 65,536 | 阶梯计价,请参见表格下方说明。 | 各100万Token 有效期:百炼开通后90天内 | |
qwen3-coder-30b-a3b-instruct | ||||||
qwen3-coder-480b-a35b-instruct 与 qwen3-coder-30b-a3b-instruct 根据本次请求输入的 Token数,采取阶梯计费。
模型名称 | 单次请求的输入 Token 数 | 输入成本(每百万Token) | 输出成本(每百万Token) |
qwen3-coder-480b-a35b-instruct | 0<Token≤32K | 6元 | 24元 |
32K<Token≤128K | 9元 | 36元 | |
128K<Token≤200K | 15元 | 60元 | |
qwen3-coder-30b-a3b-instruct | 0<Token≤32K | 1.5元 | 6元 |
32K<Token≤128K | 2.25元 | 9元 | |
128K<Token≤200K | 3.75元 | 15元 |
全球
在全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | |||||
qwen3-coder-480b-a35b-instruct | 262,144 | 204,800 | 65,536 | 阶梯计价,请参见表格下方说明。 | 无免费额度 | |
qwen3-coder-30b-a3b-instruct | ||||||
qwen3-coder-480b-a35b-instruct 与 qwen3-coder-30b-a3b-instruct 根据本次请求输入的 Token数,采取阶梯计费。
模型名称 | 单次请求的输入 Token 数 | 输入成本(每百万Token) | 输出成本(每百万Token) |
qwen3-coder-480b-a35b-instruct | 0<Token≤32K | 11.009元 | 55.044元 |
32K<Token≤128K | 19.816元 | 99.08元 | |
128K<Token≤200K | 33.027元 | 165.133元 | |
qwen3-coder-30b-a3b-instruct | 0<Token≤32K | 3.303元 | 16.513元 |
32K<Token≤128K | 5.504元 | 27.522元 | |
128K<Token≤200K | 8.807元 | 44.035元 |
国际
在国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每百万Token) | |||||
qwen3-coder-480b-a35b-instruct | 262,144 | 204,800 | 65,536 | 阶梯计价,请参见表格下方说明。 | 无免费额度 | |
qwen3-coder-30b-a3b-instruct | ||||||
qwen3-coder-480b-a35b-instruct 与 qwen3-coder-30b-a3b-instruct 根据本次请求输入的 Token数,采取阶梯计费。
模型名称 | 单次请求的输入 Token 数 | 输入成本(每百万Token) | 输出成本(每百万Token) |
qwen3-coder-480b-a35b-instruct | 0<Token≤32K | 11.009元 | 55.044元 |
32K<Token≤128K | 19.816元 | 99.08元 | |
128K<Token≤200K | 33.027元 | 165.133元 | |
qwen3-coder-30b-a3b-instruct | 0<Token≤32K | 3.303元 | 16.513元 |
32K<Token≤128K | 5.504元 | 27.522元 | |
128K<Token≤200K | 8.807元 | 44.035元 |
基础限流
关于模型的限流条件,请参见限流。