通义千问大语言模型介绍

更新时间:
复制为 MD 格式

通义千问是由阿里云自主研发的大模型,用于理解和分析用户输入的自然语言,以及图片、音频、视频等多模态数据。在不同领域和任务为用户提供服务和帮助。您可以通过提供尽可能清晰详细的指令,来获取符合您预期的结果。

更多通义系列模型请参见通义大模型

模型体验

您可以在模型体验中心试用通义千问模型。

应用场景

通义千问凭借其强大的语言及多模态数据处理能力,为用户带来高效、智能的语言服务体验,其能力包括但不限于文字创作、翻译服务和对话模拟等,具体应用场景如下:

  • 文字创作:撰写故事、公文、邮件、剧本和诗歌等。

  • 文本处理:润色文本和提取文本摘要等。

  • 编程辅助:编写和优化代码等。

  • 翻译服务:提供各类语言的翻译服务,如英语、日语、法语或西班牙语等。

  • 对话模拟:扮演不同角色进行交互式对话。

  • 数据可视化:图表制作和数据呈现等。

文本生成-通义千问

以下为通义千问商业版模型。相比开源版,商业版具有更新的能力和优化。

商业版暂不透出参数规模。
若有高并发需求,建议优先使用稳定版或最新版,限流条件更宽松。
稳定版模型会不定期更新升级。若需使用固定版本,请选择快照版本。

通义千问Max

通义千问系列效果最好的模型,适合复杂、多步骤的任务。使用方法 | API参考 | 在线体验

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

版本

模式

上下文长度

最大输入

最长思维链

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen3-max

当前与qwen3-max-2025-09-23能力相同

稳定版

仅非思考

262,144

258,048

-

65,536

阶梯计价,请参见表格下方说明。

100Token

有效期:百炼开通后90天内

qwen3-max-2026-01-23

支持调用内置工具

快照版

思考

81,920

非思考

-

qwen3-max-2025-09-23

快照版

仅非思考

qwen3-max-preview

预览版

思考

81,920

32,768

非思考

-

65,536

以上模型根据本次请求的输入 Token数,采取阶梯计费。

模型名称

单次请求的输入Token

输入单价(每百万Token)

输出单价(每百万Token)

思维链+回答

qwen3-max

Batch调用半价
上下文缓存享有折扣

0<Token≤32K

2.5

10

32K<Token≤128K

4

16

128K<Token≤252K

7

28

qwen3-max-2026-01-23

0<Token≤32K

2.5

10

32K<Token≤128K

4

16

128K<Token≤252K

7

28

qwen3-max-2025-09-23

0<Token≤32K

6

24

32K<Token≤128K

10

40

128K<Token≤252K

15

60

qwen3-max-preview

上下文缓存享有折扣

0<Token≤32K

6

24

32K<Token≤128K

10

40

128K<Token≤252K

15

60

更多模型

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen-max

当前与qwen-max-2024-09-19能力相同
Batch调用半价

稳定版

32,768

30,720

8,192

2.4

9.6

100Token

有效期:百炼开通后90天内

qwen-max-latest

始终与最新快照版能力相同
Batch调用半价

最新版

131,072

129,024

qwen-max-2025-01-25

又称qwen-max-0125、Qwen2.5-Max

快照版

qwen-max-2024-09-19

又称qwen-max-0919

32,768

30,720

20

60

qwen-max-2024-04-28

又称qwen-max-0428

快照版

8,000

6,000

2,000

40

120

qwen-max-2024-04-03

又称qwen-max-0403

全球

全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。

模型名称

版本

模式

上下文长度

最大输入

最长思维链

最大输出

输入成本

输出成本

(Token数)

(每百万Token)

qwen3-max

当前与qwen3-max-2025-09-23能力相同

稳定版

仅非思考

262,144

258,048

-

65,536

阶梯计价,请参见表格下方说明。

qwen3-max-2025-09-23

快照版

仅非思考

qwen3-max-preview

预览版

思考

81,920

32,768

非思考

-

65,536

以上模型根据本次请求的输入 Token数,采取阶梯计费。

单次请求的输入Token

输入价格(每百万Token)

qwen3-max、qwen3-max-preview 支持上下文缓存

输出价格(每百万Token)

0<Token≤32K

8.807

44.035

32K<Token≤128K

17.614

88.071

128K<Token≤252K

22.018

110.089

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

版本

模式

上下文长度

最大输入

最长思维链

最大输出

输入成本

输出成本

(Token数)

(每百万Token)

qwen3-max

当前与qwen3-max-2025-09-23能力相同

稳定版

仅非思考

262,144

258,048

-

65,536

阶梯计价,请参见表格下方说明。

qwen3-max-2026-01-23

支持调用内置工具

快照版

思考

81,920

非思考

-

qwen3-max-2025-09-23

快照版

仅非思考

qwen3-max-preview

预览版

思考

81,920

32,768

非思考

-

65,536

以上模型根据本次请求的输入 Token数,采取阶梯计费。

单次请求的输入Token

输入价格(每百万Token)

qwen3-max、qwen3-max-preview 支持上下文缓存

输出价格(每百万Token)

0<Token≤32K

8.807

44.035

32K<Token≤128K

17.614

88.071

128K<Token≤252K

22.018

110.089

更多模型

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen-max

当前与qwen-max-2025-01-25能力相同
Batch调用半价

稳定版

32,768

30,720

8,192

11.743

46.971

无免费额度

qwen-max-latest

始终与最新快照版能力相同

最新版

11.743

46.971

qwen-max-2025-01-25

又称qwen-max-0125、Qwen2.5-Max

快照版

金融云

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(Token数)

(每百万Token)

qwen-max

稳定版

8,000

6,000

2,000

38

114

100Token

有效期:百炼开通后90天内

qwen3-max-2026-01-23 模型的思考模式:相较于 2025 年 9 月 23 日的快照版本,有效融合了思考模式与非思考模式,显著提升了模型的整体性能。在思考模式下,模型集成了 Web 搜索、网页信息提取和代码解释器三项工具,通过在思考过程中引入外部工具,在复杂问题上实现更高的准确率。

qwen3-maxqwen3-max-2026-01-23、qwen3-max-2025-09-23模型原生支持search agent,请参见联网搜索

通义千问Plus

能力均衡,推理效果、成本和速度介于通义千问Max和通义千问Flash之间,适合中等复杂任务。

使用方法 | API参考 | 在线体验思考模式

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

版本

模式

上下文长度

最大输入

最长思维链

最大输出

输入成本

输出成本

思维链+输出

免费额度

(注)

(Token数)

(每百万Token)

qwen-plus

当前与qwen-plus-2025-12-01能力相同
属于Qwen3系列
Batch调用半价

稳定版

思考

1,000,000

995,904

81,920

32,768

阶梯计价,请参见表格下方说明。

100Token

有效期:百炼开通后90天内

非思考

997,952

-

qwen-plus-latest

当前与qwen-plus-2025-12-01能力相同
属于Qwen3系列
Batch调用半价

最新版

思考

995,904

81,920

非思考

997,952

-

qwen-plus-2025-12-01

属于Qwen3系列

快照版

思考

995,904

81,920

非思考

997,952

-

qwen-plus-2025-09-11

属于Qwen3系列

思考

995,904

81,920

非思考

997,952

-

qwen-plus-2025-07-28

又称qwen-plus-0728
属于Qwen3系列

思考

995,904

81,920

非思考

997,952

-

qwen-plus-2025-07-14

又称qwen-plus-0714
属于Qwen3系列

思考

131,072

98,304

38,912

16,384

0.8

8

非思考

129,024

-

2

qwen-plus-2025-04-28

又称qwen-plus-0428
属于Qwen3系列

思考

98,304

38,912

8

非思考

129,024

-

2

qwen-plus、qwen-plus-latest、qwen-plus-2025-12-01、qwen-plus-2025-09-11qwen-plus-2025-07-28 根据本次请求输入的 Token数,采取阶梯计费。

单次请求的输入Token

输入价格(每百万Token)

模式

输出价格(每百万Token)

0<Token≤128K

0.8

非思考模式

2

思考模式

8

128K<Token≤256K

2.4

非思考模式

20

思考模式

24

256K<Token≤1M

4.8

非思考模式

48

思考模式

64

上述模型支持思考模式和非思考模式,您可以通过 enable_thinking 参数实现两种模式的切换。除此之外,模型的能力得到了大幅提升:

  1. 推理能力:在数学、代码和逻辑推理等评测中,显著超过 QwQ 和同尺寸的非推理模型,达到同规模业界顶尖水平。

  2. 人类偏好能力:创意写作、角色扮演、多轮对话、指令遵循能力均大幅提升,通用能力显著超过同尺寸模型。

  3. Agent 能力:在思考、非思考两种模式下都达到业界领先水平,能精准调用外部工具。

  4. 多语言能力:支持100多种语言和方言,多语言翻译、指令理解、常识推理能力都明显提升。

  5. 回复格式:修复了之前版本存在的回复格式的问题,如异常 Markdown、中间截断、错误输出 boxed 等问题。

对于上述模型,开启思考模式时如果没有输出思考过程,按非思考模式价格进行收费。

更多模型

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen-plus-2025-01-25

又称qwen-plus-0125

快照版

131,072

129,024

8,192

0.8

2

100Token

有效期:百炼开通后90天内

qwen-plus-2025-01-12

又称qwen-plus-0112

qwen-plus-2024-12-20

又称qwen-plus-1220

qwen-plus-2024-11-27

又称qwen-plus-1127

qwen-plus-2024-11-25

又称qwen-plus-1125

qwen-plus-2024-09-19

又称qwen-plus-0919

qwen-plus-2024-08-06

又称qwen-plus-0806

128,000

4

12

qwen-plus-2024-07-23

又称qwen-plus-0723​

32,000

30,000

8,000

全球

全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen-plus

当前与qwen-plus-2025-12-01能力相同
属于Qwen3系列

稳定版

1,000,000

思考模式

995,904

非思考模式

997,952

32,768

思维链最长81,920

阶梯计价,请参见表格下方说明。

无免费额度

qwen-plus-2025-12-01

属于Qwen3系列

快照版

思考模式

995,904

非思考模式

997,952

qwen-plus-2025-09-11

属于Qwen3系列

qwen-plus-2025-07-28

又称qwen-plus-0728
属于Qwen3系列

以上模型根据本次请求输入的 Token数,采取阶梯计费。

单次请求的输入Token

输入价格(每百万Token)

模式

输出价格(每百万Token)

0<Token≤256K

2.936

非思考模式

8.807

思考模式

29.357

256K<Token≤1M

8.807

非思考模式

26.421

思考模式

88.071

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen-plus

当前与qwen-plus-2025-12-01能力相同
属于Qwen3系列
Batch调用半价

稳定版

1,000,000

思考模式

995,904

非思考模式

997,952

32,768

思维链最长81,920

阶梯计价,请参见表格下方说明。

无免费额度

qwen-plus-latest

当前与qwen-plus-2025-12-01能力相同
属于Qwen3系列

最新版

思考模式

995,904

非思考模式

997,952

qwen-plus-2025-12-01

属于Qwen3系列

快照版

思考模式

995,904

非思考模式

997,952

qwen-plus-2025-09-11

属于Qwen3系列

qwen-plus-2025-07-28

又称qwen-plus-0728
属于Qwen3系列

qwen-plus-2025-07-14

又称qwen-plus-0714
属于Qwen3系列

131,072

思考模式

98,304

非思考模式

129,024

16,384

思维链最长38,912

2.936

思考模式

29.357

非思考模式

8.807

qwen-plus-2025-04-28

又称qwen-plus-0428
属于Qwen3系列

qwen-plus-2025-01-25

又称qwen-plus-0125

129,024

8,192

8.807

qwen-plus、qwen-plus-latest、qwen-plus-2025-12-01、qwen-plus-2025-09-11qwen-plus-2025-07-28 根据本次请求输入的 Token数,采取阶梯计费。

单次请求的输入Token

输入价格(每百万Token)

模式

输出价格(每百万Token)

0<Token≤256K

2.936

非思考模式

8.807

思考模式

29.357

256K<Token≤1M

8.807

非思考模式

26.421

思考模式

88.071

美国

美国部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源仅限于美国境内。

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen-plus-us

当前与 qwen-plus-2025-12-01-us 能力相同
属于Qwen3系列

稳定版

1,000,000

思考模式

995,904

非思考模式

997,952

32,768

思维链最长81,920

阶梯计价,请参见表格下方说明。

qwen-plus-2025-12-01-us

属于Qwen3系列

快照版

思考模式

995,904

非思考模式

997,952

以上模型根据本次请求输入的 Token数采取阶梯计费,其中qwen-plus-us支持上下文缓存

单次请求的输入Token

输入价格(每百万Token)

模式

输出价格(每百万Token)

0<Token≤256K

2.936

非思考模式

8.807

思考模式

29.357

256K<Token≤1M

8.807

非思考模式

26.421

思考模式

88.071

金融云

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(Token数)

(每百万Token)

qwen-plus

稳定版

131,072

128,000

8,192

1.52

3.8

100Token

有效期:百炼开通后90天内

通义千问Flash

通义千问系列速度最快、成本极低的模型,适合简单任务。通义千问Flash采用灵活的阶梯定价,相比通义千问Turbo计费更合理。使用方法 | API参考 | 在线体验 | 思考模式

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

版本

模式

上下文长度

最大输入

最长思维链

最大输出

输入成本

输出成本

思维链+输出

免费额度

(注)

(Token数)

(每百万Token)

qwen-flash

当前与 qwen-flash-2025-07-28能力相同
属于Qwen3系列
Batch调用半价

稳定版

思考

1,000,000

995,904

81,920

32,768

阶梯计价,请参见表格下方说明。

100Token

有效期:百炼开通后90天内

非思考

997,952

-

qwen-flash-2025-07-28

属于Qwen3系列

快照版

思考

995,904

81,920

非思考

997,952

-

以上模型根据本次请求输入的 Token数采取阶梯计费,其中qwen-flash支持缓存Batch调用

单次请求的输入Token

输入价格(每百万Token)

输出价格(每百万Token)

0<Token≤128K

0.15

1.5

128K<Token≤256K

0.6

6

256K<Token≤1M

1.2

12

上述模型均支持思考模式和非思考模式,可通过 enable_thinking 参数实现两种模式的切换。

全球

全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。

模型名称

版本

模式

上下文长度

最大输入

最长思维链

最大输出

输入成本

输出成本

思维链+输出

免费额度

(注)

(Token数)

(每百万Token)

qwen-flash

当前与 qwen-flash-2025-07-28能力相同
属于Qwen3系列

稳定版

思考

1,000,000

995,904

81,920

32,768

阶梯计价,请参见表格下方说明。

100Token

有效期:百炼开通后90天内

非思考

997,952

-

qwen-flash-2025-07-28

属于Qwen3系列

快照版

思考

995,904

81,920

非思考

997,952

-

以上模型根据本次请求输入的 Token数采取阶梯计费,其中qwen-flash支持缓存

单次请求的输入Token

输入价格(每百万Token)

输出价格(每百万Token)

0<Token≤256K

0.367

2.936

256K<Token≤1M

1.835

14.678

上述模型均支持思考模式和非思考模式,可通过 enable_thinking 参数实现两种模式的切换。

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

版本

模式

上下文长度

最大输入

最长思维链

最大输出

输入成本

输出成本

思维链+输出

免费额度

(注)

(Token数)

(每百万Token)

qwen-flash

当前与 qwen-flash-2025-07-28能力相同
属于Qwen3系列

稳定版

思考

1,000,000

995,904

81,920

32,768

阶梯计价,请参见表格下方说明。

100Token

有效期:百炼开通后90天内

非思考

997,952

-

qwen-flash-2025-07-28

属于Qwen3系列

快照版

思考

995,904

81,920

非思考

997,952

-

以上模型根据本次请求输入的 Token数采取阶梯计费,其中qwen-flash支持缓存

单次请求的输入Token

输入价格(每百万Token)

输出价格(每百万Token)

0<Token≤256K

0.367

2.936

256K<Token≤1M

1.835

14.678

上述模型均支持思考模式和非思考模式,可通过 enable_thinking 参数实现两种模式的切换。

美国

美国部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源仅限于美国境内。

模型名称

版本

模式

上下文长度

最大输入

最长思维链

最大输出

输入成本

输出成本

思维链+输出

免费额度

(注)

(Token数)

(每百万Token)

qwen-flash-us

当前与 qwen-flash-2025-07-28-us能力相同
属于Qwen3系列

稳定版

思考

1,000,000

995,904

81,920

32,768

阶梯计价,请参见表格下方说明。

100Token

有效期:百炼开通后90天内

非思考

997,952

-

qwen-flash-2025-07-28-us

属于Qwen3系列

快照版

思考

995,904

81,920

非思考

997,952

-

以上模型根据本次请求输入的 Token数采取阶梯计费,其中qwen-flash支持缓存

单次请求的输入Token

输入价格(每百万Token)

输出价格(每百万Token)

0<Token≤256K

0.367

2.936

256K<Token≤1M

1.835

14.678

上述模型均支持思考模式和非思考模式,可通过 enable_thinking 参数实现两种模式的切换。

通义千问Turbo

通义千问Turbo 后续不再更新,建议替换为通义千问Flash。通义千问Flash采用灵活的阶梯定价,计费更合理。使用方法 | API参考 | 在线体验思考模式

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen-turbo

当前与 qwen-turbo-2025-04-28能力相同
属于Qwen3系列
Batch调用半价

稳定版

思考模式

131,072

非思考模式

1,000,000

思考模式

98,304

非思考模式

1,000,000

16,384

思维链最长38,912

0.3

思考模式

3

非思考模式

0.6

100Token

有效期:百炼开通后90天内

qwen-turbo-latest

始终与最新快照版能力相同
属于Qwen3系列
Batch调用半价

最新版

qwen-turbo-2025-07-15

又称qwen-turbo-0715
属于Qwen3系列

快照版

qwen-turbo-2025-04-28

又称qwen-turbo-0428
属于Qwen3系列

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen-turbo

当前与qwen-turbo-2025-04-28能力相同
属于Qwen3系列
Batch调用半价

稳定版

思考模式

131,072

非思考模式

1,000,000

思考模式

98,304

非思考模式

1,000,000

16,384

思维链最长38,912

0.367

思考模式:3.67

非思考模式:1.468

无免费额度

qwen-turbo-latest

始终与最新快照版能力相同
属于Qwen3系列

最新版

0.367

思考模式:3.67

非思考模式:1.468

qwen-turbo-2025-04-28

又称qwen-turbo-0428
属于Qwen3系列

快照版

qwen-turbo-2024-11-01

又称qwen-turbo-1101

1,000,000

1,000,000

8,192

1.468

上述模型均支持思考模式和非思考模式,可通过 enable_thinking 参数实现两种模式的切换。开启思考模式时如果没有输出思考过程,按非思考模式价格进行收费。

更多模型

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen-turbo-2025-02-11

又称qwen-turbo-0211

快照版

1,000,000

1,000,000

8,192

0.3

0.6

100Token

有效期:百炼开通后90天内

qwen-turbo-2024-11-01

又称qwen-turbo-1101

1000Token

有效期:百炼开通后90天内

qwen-turbo-2024-09-19

又称qwen-turbo-0919

131,072

129,024

100Token

有效期:百炼开通后90天内

qwen-turbo-2024-06-24

又称qwen-turbo-0624

8,000

6,000

2,000

2

6

QwQ

基于 Qwen2.5 模型训练的 QwQ 推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、LiveCodeBench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平。使用方法

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

版本

上下文长度

最大输入

最大思维链长度

最大回复长度

输入成本

输出成本

思维链+输出

免费额度

(注)

(Token数)

(每百万Token)

qwq-plus

当前与qwq-plus-2025-03-05能力相同
Batch调用半价

稳定版

131,072

98,304

32,768

8,192

1.6

4

100万 Token

有效期:百炼开通后90天内

qwq-plus-latest

始终与最新快照版能力相同

最新版

1.6

4

qwq-plus-2025-03-05

又称qwq-plus-0305

快照版

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

版本

上下文长度

最大输入

最大思维链长度

最大回复长度

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwq-plus

稳定版

131,072

98,304

32,768

8,192

5.871

17.614

无免费额度

通义千问Long

通义千问系列上下文窗口最长,能力均衡且成本较低的模型,适合长文本分析、信息抽取、总结摘要和分类打标等任务。使用方法 | 在线体验

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen-long

Batch调用半价

稳定版

10,000,000

10,000,000

32,768

0.5

2

100Token

有效期:百炼开通后90天内

qwen-long-latest

始终与最新快照版能力相同
Batch调用半价

最新版

qwen-long-2025-01-25

又称qwen-long-0125

快照版

0.5

2

通义千问Omni

Qwen-Omni 模型能够接收文本、图片、音频、视频等多种模态的组合输入,并生成文本或语音形式的回复, 提供多种拟人音色,支持多语言和方言的语音输出,可应用于文本创作、视觉识别、语音助手等场景。使用方法API 参考

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

版本

模式

上下文长度

最大输入

最长思维链

最大输出

免费额度

(注)

(Token数)

qwen3-omni-flash

当前与qwen3-omni-flash-2025-12-01能力相同

稳定版

思考模式

65,536

16,384

32,768

16,384

100Token(不区分模态)

有效期:百炼开通后90天内

非思考模式

49,152

-

qwen3-omni-flash-2025-12-01

快照版

思考模式

65,536

16,384

32,768

16,384

非思考模式

49,152

-

qwen3-omni-flash-2025-09-15

又称qwen3-omni-flash-0915

思考模式

65,536

16,384

32,768

16,384

非思考模式

49,152

-

免费额度用完后,输入与输出的计费规则如下,思考与非思考模式的计费相同,且思考模式下不支持输出音频。

输入计费项

单价(每百万Token)

输入:文本

1.8

输入:音频

15.8

输入:图片/视频

3.3

输出计费项

单价(每百万Token)

输出:文本

6.9元(输入仅包含文本时)

12.7元(输入包含图片/视频/音频时)

输出:文本+音频

思考模式下无此项计费

62.6元(音频)

输出的文本不计费。

更多模型

模型名称

版本

上下文长度

最大输入

最大输出

免费额度

(注)

(Token数)

qwen-omni-turbo

当前与qwen-omni-turbo-2025-03-26能力相同
Batch调用半价

稳定版

32,768

30,720

2,048

100Token(不区分模态)

有效期:百炼开通后90天内

qwen-omni-turbo-latest

始终与最新快照版 能力相同

最新版

qwen-omni-turbo-2025-03-26

又称qwen-omni-turbo-0326

快照版

qwen-omni-turbo-2025-01-19

又称qwen-omni-turbo-0119

免费额度用完后,输入与输出的计费规则如下,思考与非思考模式的计费相同,且思考模式下不支持输出音频。

输入计费项

单价(每百万Token)

输入:文本

0.4

输入:音频

25

输入:图片/视频

1.5

输出计费项

单价(每百万Token)

输出:文本

1.6元(输入仅包含文本时)

4.5元(输入包含图片/视频/音频时)

输出:文本+音频

思考模式下无此项计费

50元(音频)

输出的文本不计费。

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

版本

模式

上下文长度

最大输入

最长思维链

最大输出

免费额度

(注)

(Token数)

qwen3-omni-flash

当前与qwen3-omni-flash-2025-12-01能力相同

稳定版

思考模式

65,536

16,384

32,768

16,384

无免费额度

非思考模式

49,152

-

qwen3-omni-flash-2025-12-01

快照版

思考模式

65,536

16,384

32,768

16,384

非思考模式

49,152

-

qwen3-omni-flash-2025-09-15

又称qwen3-omni-flash-0915

快照版

思考模式

65,536

16,384

32,768

16,384

非思考模式

49,152

-

免费额度用完后,输入与输出的计费规则如下,思考与非思考模式的计费相同,且思考模式下不支持输出音频。

输入计费项

单价(每百万Token)

输入:文本

3.156

输入:音频

27.962

输入:图片/视频

5.725

输出计费项

单价(每百万Token)

输出:文本

12.183元(输入仅包含文本时)

22.458元(输入包含图片/视频/音频时)

输出:文本+音频

110.896元(音频)

输出的文本不计费。

更多模型

模型名称

版本

上下文长度

最大输入

最大输出

免费额度

(注)

(Token数)

qwen-omni-turbo

当前与qwen-omni-turbo-2025-03-26能力相同

稳定版

32,768

30,720

2,048

无免费额度

qwen-omni-turbo-latest

始终与最新快照版
能力相同

最新版

qwen-omni-turbo-2025-03-26

又称qwen-omni-turbo-0326

快照版

商业版模型的免费额度用完后,输入与输出的计费规则如下:

输入计费项

单价(每百万Token)

输入:文本

0.514

输入:音频

32.586

输入:图片/视频

1.541

输出计费项

单价(每百万Token)

输出:文本

1.982元(输入仅包含文本时)

4.624元(输入包含图片/视频/音频时)

输出:文本+音频

65.246元(音频)

输出的文本不计费。

建议优先使用Qwen3-Omni-Flash模型相较于Qwen-Omni-Turbo(后续不再更新),模型的能力得到大幅提升:

  • 属于混合思考模型支持思考模式和非思考模式,可通过 enable_thinking 参数实现两种模式的切换,默认不开启思考模式。

  • 思考模式下不支持输出音频;在非思考模式下,对于模型输出的音频:

    • qwen3-omni-flash-2025-12-01支持的音色增加至49种,qwen3-omni-flash-2025-09-15、qwen3-omni-flash支持的音色增加至 17 种,Qwen-Omni-Turbo 仅支持 4 种;

    • 支持语言增加至 10 种,Qwen-Omni-Turbo 仅支持 2 种。

通义千问Omni-Realtime

相比于通义千问Omni,支持音频的流式输入,且内置 VAD(Voice Activity Detection,语音活动检测)功能,可自动检测用户语音的开始和结束。使用方法客户端事件服务端事件在线体验

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

版本

上下文长度

最大输入

最大输出

免费额度

(注)

(Token数)

qwen3-omni-flash-realtime

当前与qwen3-omni-flash-realtime-2025-12-01能力相同

稳定版

65,536

49,152

16,384

100Token(不区分模态)

有效期:百炼开通后90天内

qwen3-omni-flash-realtime-2025-12-01

快照版

qwen3-omni-flash-realtime-2025-09-15

免费额度用完后,输入与输出的计费规则如下:

输入计费项

单价(每百万Token)

输入:文本

2.2

输入:音频

18.9

输入:图片

3.9

输出计费项

单价(每百万Token)

输出:文本

8.3元(输入仅包含文本时)

15.2元(输入包含图片/音频时)

输出:文本+音频

75.1元(音频)

输出的文本不计费。

更多模型

模型名称

版本

上下文长度

最大输入

最大输出

免费额度

(注)

(Token数)

qwen-omni-turbo-realtime

当前能力等同 qwen-omni-turbo-realtime-2025-05-08

稳定版

32,768

30,720

2,048

100Token(不区分模态)

有效期:百炼开通后90天内

qwen-omni-turbo-realtime-latest

能力始终等同最新快照版

最新版

qwen-omni-turbo-realtime-2025-05-08

快照版

免费额度用完后,输入与输出的计费规则如下:

输入计费项

单价(每百万Token)

输入:文本

1.6

输入:音频

25

输入:图片

6

输出计费项

单价(每百万Token)

输出:文本

6.4元(输入仅包含文本时)

18元(输入包含图片/音频时)

输出:文本+音频

50元(音频)

输出的文本不计费。

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

版本

上下文长度

最大输入

最大输出

免费额度

(注)

(Token数)

qwen3-omni-flash-realtime

当前与qwen3-omni-flash-realtime-2025-12-01能力相同

稳定版

65,536

49,152

16,384

无免费额度

qwen3-omni-flash-realtime-2025-12-01

快照版

qwen3-omni-flash-realtime-2025-09-15

免费额度用完后,输入与输出的计费规则如下:

输入计费项

单价(每百万Token)

输入:文本

3.816

输入:音频

33.54

输入:图片

6.899

输出计费项

单价(每百万Token)

输出:文本

14.605元(输入仅包含文本时)

26.935元(输入包含图片/音频时)

输出:文本+音频

133.06元(音频)

输出的文本不计费。

更多模型

模型名称

版本

上下文长度

最大输入

最大输出

免费额度

(注)

(Token数)

qwen-omni-turbo-realtime

当前能力等同 qwen-omni-turbo-realtime-2025-05-08

稳定版

32,768

30,720

2,048

无免费额度

qwen-omni-turbo-realtime-latest

能力始终等同最新快照版

最新版

qwen-omni-turbo-realtime-2025-05-08

快照版

输入与输出的计费规则如下:

输入计费项

单价(每百万Token)

输入:文本

1.982

输入:音频

32.586

输入:图片

6.165

输出计费项

单价(每百万Token)

输出:文本

7.853元(输入仅包含文本时)

18.495元(输入包含图片/音频时)

输出:文本+音频

65.246元(音频)

输出的文本不计费。

建议优先使用Qwen3-Omni-Flash-Realtime 模型相较于Qwen-Omni-Turbo-Realtime(后续不再更新),模型的能力得到大幅提升。对于模型输出的音频:

  • qwen3-omni-flash-realtime-2025-12-01支持的音色增加至49种,qwen3-omni-flash-realtime-2025-09-15、qwen3-omni-realtime-flash支持的音色增加至 17 种,Qwen-Omni-Turbo-Realtime 仅支持 4 种

  • 支持的语言增加至 10 种,Qwen-Omni-Turbo-Realtime 仅支持 2 种

QVQ

QVQ是视觉推理模型,支持视觉输入及思维链输出,在数学、编程、视觉分析、创作以及通用任务上都表现了更强的能力。使用方法 | 在线体验

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

版本

上下文长度

最大输入

最大思维链长度

最大回复长度

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qvq-max

相比 qvq-plus 具有更强的视觉推理和指令遵循能力,在更多复杂任务中提供最佳性能。
当前与qvq-max-2025-03-25能力相同

稳定版

131,072

106,496

单图最大16384

16,384

8,192

8

32

100万 Token

有效期:百炼开通后90天内

qvq-max-latest

始终与最新快照版能力相同

最新版

qvq-max-2025-05-15

又称qvq-max-0515

快照版

qvq-max-2025-03-25

又称qvq-max-0325

qvq-plus

当前与qvq-plus-2025-05-15能力相同

稳定版

2

5

qvq-plus-latest

始终与最新快照版能力相同

最新版

qvq-plus-2025-05-15

又称qvq-plus-0515

快照版

国际

美国部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源仅限于美国境内。

模型名称

版本

上下文长度

最大输入

最大思维链长度

最大回复长度

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qvq-max

当前与 qvq-max-2025-03-25能力相同

稳定版

131,072

106,496

单图最大16384

16,384

8,192

8.807

35.228

无免费额度

qvq-max-latest

始终与最新快照版能力相同

最新版

qvq-max-2025-03-25

又称qvq-max-0325

快照版

通义千问VL

通义千问VL是具有视觉(图像)理解能力的文本生成模型,不仅能进行OCR(图片文字识别),还能进一步总结和推理,例如从商品照片中提取属性,根据习题图进行解题等。使用方法 | API参考 | 在线体验

通义千问VL模型按输入和输出的总Token数进行计费。图像Token的计算规则视觉理解

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

版本

模式

上下文长度

最大输入

最长思维链

最大输出

输入成本

输出成本

思维链+输出

免费额度

(注)

(Token数)

(每百万Token)

qwen3-vl-plus

当前与qwen3-vl-plus-2025-09-23能力相同
Batch调用半价

稳定版

思考

262,144

258,048

单图最大16384

81,920

32,768

阶梯计价,请参见表格下方说明。

100Token

有效期:百炼开通后90天内

非思考

260,096

单图最大16384

-

qwen3-vl-plus-2025-12-19

快照版

思考

258,048

单图最大16384

81,920

非思考

260,096

单图最大16384

-

qwen3-vl-plus-2025-09-23

快照版

思考

258,048

单图最大16384

81,920

非思考

260,096

单图最大16384

-

qwen3-vl-flash

当前与qwen3-vl-flash-2025-10-15能力相同
Batch调用半价

稳定版

思考

258,048

单图最大16384

81,920

非思考

260,096

单图最大16384

-

qwen3-vl-flash-2026-01-22

快照版

思考

258,048

单图最大16384

81,920

非思考

260,096

单图最大16384

-

qwen3-vl-flash-2025-10-15

快照版

思考

258,048

单图最大16384

81,920

非思考

260,096

单图最大16384

-

以上模型根据本次请求输入的 Token数,采取阶梯计费。思考模式与非思考模式的输入输出价格相同。

qwen3-vl-plus系列

单次请求的输入Token

输入价格(每百万Token)

输出价格(每百万Token)

0<Token≤32K

1

10

32K<Token≤128K

1.5

15

128K<Token≤256K

3

30

qwen3-vl-flash系列

单次请求的输入Token

输入价格(每百万Token)

输出价格(每百万Token)

0<Token≤32K

0.15

1.5

32K<Token≤128K

0.3

3

128K<Token≤256K

0.6

6

更多模型

通义千问VL-Max系列
qwen-vl-max-2025-01-25及以后更新的模型均属于Qwen2.5-VL系列。

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen-vl-max

相比qwen-vl-plus再次提升视觉推理和指令遵循能力,在更多复杂任务中提供最佳性能
当前与qwen-vl-max-2025-08-13能力相同
Batch调用半价

稳定版

131,072

129,024

单图最大16384

8,192

1.6

4

100Token

有效期:百炼开通后90天内

qwen-vl-max-latest

始终与最新快照版能力相同
Batch调用半价

最新版

qwen-vl-max-2025-08-13

又称qwen-vl-max-0813
视觉理解指标全面提升,数学、推理、物体识别、多语言处理能力显著增强。

快照版

1.6

4

qwen-vl-max-2025-04-08

又称qwen-vl-max-0408
增强数学和推理能力

3

9

qwen-vl-max-2025-04-02

又称qwen-vl-max-0402
显著提高解决复杂数学问题的准确性

qwen-vl-max-2025-01-25

又称qwen-vl-max-0125
升级至Qwen2.5-VL系列,扩展上下文至128k,显著增强图像和视频的理解能力

qwen-vl-max-2024-12-30

又称qwen-vl-max-1230

32,768

30,720

单图最大16384

2,048

3

9

qwen-vl-max-2024-11-19

又称qwen-vl-max-1119

qwen-vl-max-2024-10-30

又称qwen-vl-max-1030

20

qwen-vl-max-2024-08-09

又称qwen-vl-max-0809
通义千问VL-Plus系列
qwen-vl-plus-2025-01-25及以后更新的模型均属于Qwen2.5-VL系列。

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen-vl-plus

当前与qwen-vl-plus-2025-08-15能力相同
Batch调用半价

稳定版

131,072

129,024

单图最大16384

8,192

0.8

2

100Token

有效期:百炼开通后90天内

qwen-vl-plus-latest

始终与最新快照版能力相同
Batch调用半价

最新版

qwen-vl-plus-2025-08-15

又称qwen-vl-plus-0815
在物体识别与定位、多语言处理的能力上有显著提升

快照版

0.8

2

qwen-vl-plus-2025-07-10

又称qwen-vl-plus-0710
进一步提升监控视频内容的理解能力

32,768

30,720

单图最大16384

0.15

1.5

qwen-vl-plus-2025-05-07

又称qwen-vl-plus-0507
显著提升数学、推理、监控视频内容的理解能力

131,072

129,024

单图最大16384

1.5

4.5

qwen-vl-plus-2025-01-25

又称qwen-vl-plus-0125
升级至Qwen2.5-VL系列,扩展上下文至128k,显著增强图像和视频理解能力

qwen-vl-plus-2025-01-02

又称qwen-vl-plus-0102

32,768

30,720

单图最大16384

2,048

1.5

4.5

qwen-vl-plus-2024-08-09

又称qwen-vl-plus-0809

全球

全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。

模型名称

版本

模式

上下文长度

最大输入

最长思维链

最大输出

输入成本

输出成本

思维链+输出

免费额度

(注)

(Token数)

(每百万Token)

qwen3-vl-plus

当前与qwen3-vl-plus-2025-09-23能力相同

稳定版

思考

262,144

258,048

单图最大16384

81,920

32,768

阶梯计价,请参见表格下方说明。

无免费额度

非思考

260,096

单图最大16384

-

qwen3-vl-plus-2025-09-23

快照版

思考

258,048

单图最大16384

81,920

非思考

260,096

单图最大16384

-

qwen3-vl-flash

当前与qwen3-vl-flash-2025-10-15能力相同

稳定版

思考

258,048

单图最大16384

81,920

非思考

260,096

单图最大16384

-

qwen3-vl-flash-2025-10-15

快照版

思考

258,048

单图最大16384

81,920

非思考

260,096

单图最大16384

-

以上模型根据本次请求输入的 Token数,采取阶梯计费。思考模式与非思考模式的输入输出价格相同。

qwen3-vl-plus系列

单次请求的输入Token

输入价格(每百万Token)

输出价格(每百万Token)

0<Token≤32K

1.468

11.743

32K<Token≤128K

2.202

17.614

128K<Token≤256K

4.404

35.228

qwen3-vl-flash系列

单次请求的输入Token

输入价格(每百万Token)

输出价格(每百万Token)

0<Token≤32K

0.367

2.936

32K<Token≤128K

0.55

4.404

128K<Token≤256K

0.881

7.046

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

版本

模式

上下文长度

最大输入

最长思维链

最大输出

输入成本

输出成本

思维链+输出

免费额度

(注)

(Token数)

(每百万Token)

qwen3-vl-plus

当前与qwen3-vl-plus-2025-09-23能力相同

稳定版

思考

262,144

258,048

单图最大16384

81,920

32,768

阶梯计价,请参见表格下方说明。

无免费额度

非思考

260,096

单图最大16384

-

qwen3-vl-plus-2025-12-19

快照版

思考

258,048

单图最大16384

81,920

非思考

260,096

单图最大16384

-

qwen3-vl-plus-2025-09-23

快照版

思考

258,048

单图最大16384

81,920

非思考

260,096

单图最大16384

-

qwen3-vl-flash

当前与qwen3-vl-flash-2025-10-15能力相同

稳定版

思考

258,048

单图最大16384

81,920

非思考

260,096

单图最大16384

-

qwen3-vl-flash-2025-10-15

快照版

思考

258,048

单图最大16384

81,920

非思考

260,096

单图最大16384

-

以上模型根据本次请求输入的 Token数,采取阶梯计费。思考模式与非思考模式的输入输出价格相同。

qwen3-vl-plus系列

单次请求的输入Token

输入价格(每百万Token)

输出价格(每百万Token)

0<Token≤32K

1.468

11.743

32K<Token≤128K

2.202

17.614 元

128K<Token≤256K

4.404

35.228

qwen3-vl-flash系列

单次请求的输入Token

输入价格(每百万Token)

输出价格(每百万Token)

0<Token≤32K

0.367

2.936

32K<Token≤128K

0.55

4.404

128K<Token≤256K

0.881

7.046

更多模型

通义千问VL-Max系列
以下模型均属于Qwen2.5-VL系列。

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen-vl-max

相比qwen-vl-plus再次提升视觉推理和指令遵循能力,在更多复杂任务中提供最佳性能。
当前与qwen-vl-max-2025-08-13能力相同

稳定版

131,072

129,024

单图最大16384

8,192

5.871

23.486

无免费额度

qwen-vl-max-latest

始终与最新快照版能力相同

最新版

5.871

23.486

qwen-vl-max-2025-08-13

又称qwen-vl-max-0813
视觉理解指标全面提升,数学、推理、物体识别、多语言处理能力显著增强。

快照版

qwen-vl-max-2025-04-08

又称qwen-vl-max-0408
属于Qwen2.5-VL系列模型,扩展上下文至128k,显著增强数学和推理能力。
通义千问VL-Plus系列
以下模型均属于Qwen2.5-VL系列。

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen-vl-plus

当前与qwen-vl-plus-2025-08-15能力相同

稳定版

131,072

129,024

单图最大16384

8,192

1.541

4.624

无免费额度

qwen-vl-plus-latest

始终与最新快照版能力相同

最新版

1.541

4.624

qwen-vl-plus-2025-08-15

又称qwen-vl-plus-0815
在物体识别与定位、多语言处理的能力上有显著提升

快照版

qwen-vl-plus-2025-05-07

又称qwen-vl-plus-0507
显著提升数学、推理、监控视频内容的理解能力

qwen-vl-plus-2025-01-25

又称qwen-vl-plus-0125
属于Qwen2.5-VL系列模型,扩展上下文至128k,显著增强图像和视频的理解能力。
qwen3-vl-flash-2026-01-22模型有效融合了思考模式与非思考模式,相较于 2025 年 10 月 15 日的快照版本,显著提升了模型的整体性能,在通用视觉识别、安防、巡店、巡检、拍照解题等业务场景中实现了更高准确率的推理。

美国

美国部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源仅限于美国境内。

模型名称

版本

模式

上下文长度

最大输入

最长思维链

最大输出

输入成本

输出成本

思维链+输出

免费额度

(注)

(Token数)

(每百万Token)

qwen3-vl-flash-us

当前与qwen3-vl-flash-2025-10-15-us能力相同

稳定版

思考

258,048

单图最大16384

81,920

32,768

阶梯计价,请参见表格下方说明。

无免费额度

非思考

260,096

单图最大16384

-

qwen3-vl-flash-2025-10-15us

快照版

思考

258,048

单图最大16384

81,920

非思考

260,096

单图最大16384

-

以上模型根据本次请求输入的 Token数,采取阶梯计费。思考模式与非思考模式的输入输出价格相同。

单次请求的输入Token

输入价格(每百万Token)

输出价格(每百万Token)

0<Token≤32K

0.367

2.936

32K<Token≤128K

0.55

4.404

128K<Token≤256K

0.881

7.046

qwen3-vl-flash-2026-01-22模型有效融合了思考模式与非思考模式,相较于 2025 年 10 月 15 日的快照版本,显著提升了模型的整体性能,在通用视觉识别、安防、巡店、巡检、拍照解题等业务场景中实现了更高准确率的推理。

通义千问OCR

通义千问OCR模型是专用于文字提取的模型。相较于通义千问VL模型,它更专注于文档、表格、试题、手写体文字等类型图像的文字提取能力。它能够识别多种语言,包括英语、法语、日语、韩语、德语、俄语和意大利语等。使用方法 | API参考在线体验

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

版本

上下文长度

最大输入

最大输出

输入单价

输出单价

免费额度

(注)

(Token数)

(每百万Token)

qwen-vl-ocr

当前与qwen-vl-ocr-2025-08-28能力相同
Batch 调用半价

稳定版

34,096

30,000

单图最大30000

4,096

5

5

100Token

有效期:百炼开通后90天内

qwen-vl-ocr-latest

始终与最新版能力相同
Batch 调用半价

最新版

38,192

8,192

0.3

0.5

qwen-vl-ocr-2025-11-20

基于Qwen3-VL架构,大幅提升文档解析、文字定位能力。

快照版

qwen-vl-ocr-2025-08-28

又称qwen-vl-ocr-0828

34,096

4,096

5

5

qwen-vl-ocr-2025-04-13

又称qwen-vl-ocr-0413

qwen-vl-ocr-2024-10-28

又称qwen-vl-ocr-1028

全球

全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。

模型名称

版本

上下文长度

最大输入

最大输出

输入单价

输出单价

免费额度

(注)

(Token数)

(每百万Token)

qwen-vl-ocr

当前与qwen-vl-ocr-2025-11-20能力相同

稳定版

34,096

30,000

单图最大30000

4,096

0.514

1.174

无免费额度

qwen-vl-ocr-2025-11-20

又称qwen-vl-ocr-1120
基于Qwen3-VL架构,大幅提升文档解析、文字定位能力。

快照版

38,192

8,192

0.514

1.174

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

版本

上下文长度

最大输入

最大输出

输入单价

输出单价

免费额度

(注)

(Token数)

(每百万Token)

qwen-vl-ocr

稳定版

34,096

30,000

单图最大30000

4,096

5.284

5.284

无免费额度

qwen-vl-ocr-2025-11-20

又称qwen-vl-ocr-1120
基于Qwen3-VL架构,大幅提升文档解析、文字定位能力。

快照版

38,192

8,192

0.514

1.174

通义千问Audio

通义千问Audio是音频理解模型,支持输入多种音频(人类语音、自然音、音乐、歌声)和文本,并输出文本。该模型不仅能对输入的音频进行转录,还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。使用方法

通义千问Audio模型按输入和输出的总Token数进行计费。
音频转换为Token的规则:每一秒钟的音频对应25Token。若音频时长不足1秒,则按25Token计算。
说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen-audio-turbo

当前等同qwen-audio-turbo-2024-08-07

稳定版

8,000

6,000

1,500

目前仅供免费体验。

免费额度用完后不可调用,推荐使用Qwen-Omni作为替代模型

10Token

有效期:阿里云百炼开通后90天内

qwen-audio-turbo-latest

始终等同最新快照版

最新版

8,192

6,144

2,048

qwen-audio-turbo-2024-12-04

又称qwen-audio-turbo-1204
较上个快照版本大幅提升语音识别准确率,且新增了语音聊天能力。

快照版

qwen-audio-turbo-2024-08-07

又称qwen-audio-turbo-0807

8,000

6,000

1,500

通义千问数学模型

通义千问数学模型是专门用于数学解题的语言模型。使用方法 | API参考 | 在线体验

说明

仅支持中国内地(北京)地域。

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

输入价格

输出价格

上下文长度

最大输入

最大输出

免费额度

(注)

(每百万Token)

(Token数)

qwen-math-plus

4

12

4,096

3,072

3,072

100Token

有效期:百炼开通后90天内

qwen-math-turbo

2

6

通义千问Coder

通义千问代码模型。最新的 Qwen3-Coder-Plus 系列模型是基于 Qwen3 的代码生成模型,具有强大的Coding Agent能力,擅长工具调用和环境交互,能够实现自主编程,代码能力卓越的同时兼具通用能力。使用方法 | API参考 | 在线体验

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen3-coder-plus

当前与qwen3-coder-plus-2025-09-23能力相同

稳定版

1,000,000

997,952

65,536

阶梯计价,请参见表格下方说明。

100Token

有效期:百炼开通后90天内

qwen3-coder-plus-2025-09-23

快照版

qwen3-coder-plus-2025-07-22

快照版

qwen3-coder-flash

当前与qwen3-coder-flash-2025-07-28能力相同

稳定版

qwen3-coder-flash-2025-07-28

快照版

上述模型根据本次请求输入的Token数,采取阶梯计费。

qwen3-coder-plus系列

qwen3-coder-plus、qwen3-coder-plus-2025-09-23qwen3-coder-plus-2025-07-22价格如下,其中 qwen3-coder-plus 支持上下文缓存,命中隐式缓存的输入文本按单价的 20% 计费,命中显式缓存的输入文本按单价的 10% 计费。

单次请求的输入Token

输入成本(每百万Token)

输出成本(每百万Token)

0<Token≤32K

4

16

32K<Token≤128K

6

24

128K<Token≤256K

10

40

256K<Token≤1M

20

200

qwen3-coder-flash系列

qwen3-coder-flash 和 qwen3-coder-flash-2025-07-28 价格如下,其中 qwen3-coder-flash 支持上下文缓存,命中隐式缓存的输入文本按单价的 20% 计费,命中显式缓存的输入文本按单价的 10% 计费。

单次请求的输入Token

输入成本(每百万Token)

输出成本(每百万Token)

0<Token≤32K

1

4

32K<Token≤128K

1.5

6

128K<Token≤256K

2.5

10

256K<Token≤1M

5

25

更多模型

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen-coder-plus

当前与qwen-coder-plus-2024-11-06能力相同

稳定版

131,072

129,024

8,192

3.5

7

100Token

有效期:百炼开通后90天内

qwen-coder-plus-latest

qwen-coder-plus的最新快照版能力相同

最新版

qwen-coder-plus-2024-11-06

又称qwen-coder-plus-1106

快照版

qwen-coder-turbo

当前与qwen-coder-turbo-2024-09-19能力相同

稳定版

131,072

129,024

8,192

2

6

qwen-coder-turbo-latest

qwen-coder-turbo的最新快照版能力相同

最新版

qwen-coder-turbo-2024-09-19

又称qwen-coder-turbo-0919

快照版

全球

全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen3-coder-plus

当前与qwen3-coder-plus-2025-09-23能力相同

稳定版

1,000,000

997,952

65,536

阶梯计价,请参见表格下方说明。

无免费额度

qwen3-coder-plus-2025-09-23

快照版

qwen3-coder-plus-2025-07-22

快照版

qwen3-coder-flash

当前与qwen3-coder-flash-2025-07-28能力相同

稳定版

qwen3-coder-flash-2025-07-28

快照版

上述模型根据本次请求输入的Token数,采取阶梯计费。

qwen3-coder-plus系列

qwen3-coder-plus、qwen3-coder-plus-2025-09-23 和 qwen3-coder-plus-2025-07-22 价格如下,其中 qwen3-coder-plus 支持上下文缓存,命中隐式缓存的输入文本按单价的 20% 计费,命中显式缓存的输入文本按单价的 10% 计费。

单次请求的输入Token

输入成本(每百万Token)

输出成本(每百万Token)

0<Token≤32K

7.339

36.696

32K<Token≤128K

13.211

66.053

128K<Token≤256K

22.018

110.089

256K<Token≤1M

44.035

440.354

qwen3-coder-flash系列

qwen3-coder-flash 和 qwen3-coder-flash-2025-07-28 价格如下,其中 qwen3-coder-flash 支持上下文缓存,命中隐式缓存的输入文本按单价的 20% 计费,命中显式缓存的输入文本按单价的 10% 计费。

单次请求的输入Token

输入成本(每百万Token)

输出成本(每百万Token)

0<Token≤32K

2.202

11.009

32K<Token≤128K

3.67

18.348

128K<Token≤256K

5.871

29.357

256K<Token≤1M

11.743

70.457

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen3-coder-plus

当前与qwen3-coder-plus-2025-09-23能力相同

稳定版

1,000,000

997,952

65,536

阶梯计价,请参见表格下方说明。

无免费额度

qwen3-coder-plus-2025-09-23

快照版

qwen3-coder-plus-2025-07-22

快照版

qwen3-coder-flash

当前与qwen3-coder-flash-2025-07-28能力相同

稳定版

qwen3-coder-flash-2025-07-28

快照版

上述模型根据本次请求输入的Token数,采取阶梯计费。

qwen3-coder-plus系列

qwen3-coder-plus、qwen3-coder-plus-2025-09-23 和 qwen3-coder-plus-2025-07-22 价格如下,其中 qwen3-coder-plus 支持上下文缓存,命中隐式缓存的输入文本按单价的 20% 计费,命中显式缓存的输入文本按单价的 10% 计费。

单次请求的输入Token

输入成本(每百万Token)

输出成本(每百万Token)

0<Token≤32K

7.339

36.696

32K<Token≤128K

13.211

66.053

128K<Token≤256K

22.018

110.089

256K<Token≤1M

44.035

440.354

qwen3-coder-flash系列

qwen3-coder-flash 和 qwen3-coder-flash-2025-07-28 价格如下,其中 qwen3-coder-flash 支持上下文缓存,命中隐式缓存的输入文本按单价的 20% 计费,命中显式缓存的输入文本按单价的 10% 计费。

单次请求的输入Token

输入成本(每百万Token)

输出成本(每百万Token)

0<Token≤32K

2.202

11.009

32K<Token≤128K

3.67

18.348

128K<Token≤256K

5.871

29.357

256K<Token≤1M

11.743

70.457

通义千问翻译模型

基于 Qwen 3全面升级的旗舰级翻译大模型,支持92个语种(包括中、英、日、韩、法、西、德、泰、印尼、越、阿等)互译,模型性能和翻译效果全面升级,提供更稳定的术语定制、格式还原度、领域提示能力,让译文更精准、自然。使用方法 | 在线体验

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen-mt-plus

属于Qwen3-MT

16,384

8,192

8,192

1.8

5.4

100Token

有效期:百炼开通后90天内

qwen-mt-flash

属于Qwen3-MT

0.7

1.95

qwen-mt-lite

属于Qwen3-MT

0.6

1.6

qwen-mt-turbo

属于Qwen3-MT

0.7

1.95

全球

全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen-mt-plus

属于Qwen3-MT

16,384

8,192

8,192

18.055

54.09

无免费额度

qwen-mt-flash

属于Qwen3-MT

1.174

3.596

qwen-mt-lite

属于Qwen3-MT

0.881

2.642

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen-mt-plus

属于Qwen3-MT

16,384

8,192

8,192

18.055

54.09

无免费额度

qwen-mt-flash

属于Qwen3-MT

1.174

3.596

qwen-mt-lite

属于Qwen3-MT

0.881

2.642

qwen-mt-turbo

属于Qwen3-MT

1.174

3.596

通义千问数据挖掘模型

通义千问数据挖掘模型可以提取文档中的结构化信息并用于数据标注和内容审核等领域。使用方法 | API参考

说明

仅支持中国内地(北京)地域。

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(Token数)

(每百万Token)

qwen-doc-turbo

262,144

253,952

32,768

0.6

1

无免费额度

通义千问深入研究模型

通义千问深入研究模型可以拆解复杂问题,结合互联网搜索进行推理分析并生成研究报告。使用方法 | API参考

说明

仅支持中国内地(北京)地域。

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(Token数)

(每百万Token)

qwen-deep-research

1,000,000

997,952

32,768

54

163

无免费额度

文本生成-通义千问-开源版

  • 模型名称中,xxb表示参数规模,例如qwen2-72b-instruct表示参数规模为72B,即720亿。

  • 百炼支持调用通义千问的开源版,您无需本地部署模型。对于开源版,建议使用Qwen3模型。

Qwen3

2025 年 9月发布的 qwen3-next-80b-a3b-thinking 仅支持思考模式,相较于qwen3-235b-a22b-thinking-2507提升了指令遵循能力,总结回复更加精简。

2025 年 9月发布的 qwen3-next-80b-a3b-instruct 仅支持非思考模式,相较于qwen3-235b-a22b-instruct-2507增强了中文理解、逻辑推理及文本生成能力。

2025 年 7月发布的 qwen3-235b-a22b-thinking-2507、qwen3-30b-a3b-thinking-2507 模型仅支持思考模式,是qwen3-235b-a22b(思考模式)与qwen3-30b-a3b (思考模式)的升级版。

2025 年 7月发布的 qwen3-235b-a22b-instruct-2507、qwen3-30b-a3b-instruct-2507 模型仅支持非思考模式,是qwen3-235b-a22b(非思考模式)与qwen3-30b-a3b (非思考模式)的升级版。

2025 年 4月发布的 Qwen3 模型支持思考模式和非思考模式,您可以通过 enable_thinking 参数实现两种模式的切换。除此之外,Qwen3 模型的能力得到了大幅提升:

  1. 推理能力:在数学、代码和逻辑推理等评测中,显著超过 QwQ 和同尺寸的非推理模型,达到同规模业界顶尖水平。

  2. 人类偏好能力:创意写作、角色扮演、多轮对话、指令遵循能力均大幅提升,通用能力显著超过同尺寸模型。

  3. Agent 能力:在推理、非推理两种模式下都达到业界领先水平,能精准调用外部工具。

  4. 多语言能力:支持100多种语言和方言,多语言翻译、指令理解、常识推理能力都明显提升。

    支持的语言

    英语(English)

    简体中文(Simplified Chinese)

    繁体中文(Traditional Chinese)

    法语(French)

    西班牙语(Spanish)

    阿拉伯语(Arabic),使用阿拉伯字母。是众多阿拉伯国家的官方语言。

    俄语(Russian),使用西里尔字母。在俄罗斯及其他一些国家是官方语言。

    葡萄牙语(Portuguese),使用拉丁字母。在葡萄牙、巴西和其他葡萄牙语国家是官方语言。

    德语(German),使用拉丁字母。在德国和奥地利等地是官方语言。

    意大利语(Italian),使用拉丁字母。在意大利、圣马力诺以及瑞士的部分地区是官方语言。

    荷兰语(Dutch),使用拉丁字母。在荷兰、比利时部分地区(弗拉芒地区)和苏里南是官方语言。

    丹麦语(Danish),使用拉丁字母。在丹麦是官方语言。

    爱尔兰语(Irish),使用拉丁字母。在爱尔兰是官方语言之一。

    威尔士语(Welsh),使用拉丁字母。在威尔士使用,是官方语言之一。

    芬兰语(Finnish),使用拉丁字母。在芬兰是官方语言。

    冰岛语(Icelandic),使用拉丁字母。在冰岛是官方语言。

    瑞典语(Swedish),使用拉丁字母。是瑞典的官方语言。

    新挪威语(Norwegian Nynorsk),使用拉丁字母。在挪威与书面挪威语共同使用,属主流语言的一部分。

    书面挪威语(Norwegian Bokmål),使用拉丁字母。在挪威使用,是主流语言的一部分。

    日语(Japanese),使用日文字母。在日本是官方语言。

    朝鲜语/韩语(Korean),使用韩字(Hangul)。在韩国和朝鲜是官方语言。

    越南语(Vietnamese),使用拉丁字母。在越南是官方语言。

    泰语(Thai),使用泰文字母。在泰国是官方语言。

    印度尼西亚语(Indonesian),使用拉丁字母。是印度尼西亚的官方语言。

    马来语(Malay),使用拉丁字母。是马来西亚等地的主要语言。

    缅甸语(Burmese),使用缅甸字母。在缅甸是官方语言。

    他加禄语(Tagalog),使用拉丁字母。菲律宾的主要语言之一。

    高棉语(Khmer),使用高棉字母。在柬埔寨是官方语言。

    老挝语(Lao),使用老挝字母。在老挝是官方语言。

    印地语(Hindi),使用天城文(Devanagari)。是印度的官方语言之一。

    孟加拉语(Bengali),使用孟加拉字母。在孟加拉国和印度西孟加拉邦是官方语言。

    乌尔都语(Urdu),使用阿拉伯字母。在巴基斯坦是官方语言之一,也在印度使用。

    尼泊尔语(Nepali),使用天城字母。在尼泊尔是官方语言。

    希伯来语(Hebrew),使用希伯来字母。在以色列是官方语言。

    土耳其语(Turkish),使用拉丁字母。在土耳其和塞浦路斯北部是官方语言。

    波斯语(Persian),使用阿拉伯字母。在伊朗和塔吉克斯坦等地是官方语言。

    波兰语(Polish),使用拉丁字母。在波兰是官方语言。

    乌克兰语(Ukrainian),使用西里尔字母。在乌克兰是官方语言。

    捷克语(Czech),使用拉丁字母。在捷克是官方语言。

    罗马尼亚语(Romanian),使用拉丁字母。在罗马尼亚和摩尔多瓦是官方语言。

    保加利亚语(Bulgarian),使用西里尔字母。在保加利亚是官方语言。

    斯洛伐克语(Slovak),使用拉丁字母。在斯洛伐克是官方语言。

    匈牙利语(Hungarian),使用拉丁字母。在匈牙利是官方语言。

    斯洛文尼亚语(Slovenian),使用拉丁字母。在斯洛文尼亚是官方语言。

    拉脱维亚语(Latvian),使用拉丁字母。在拉脱维亚是官方语言。

    爱沙尼亚语(Estonian),使用拉丁字母。在爱沙尼亚是官方语言。

    立陶宛语(Lithuanian),使用拉丁字母。在立陶宛是官方语言。

    白俄罗斯语(Belarusian),使用西里尔字母。在白俄罗斯是官方语言之一。

    希腊语(Greek),使用希腊字母。在希腊和塞浦路斯是官方语言。

    克罗地亚语(Croatian),使用拉丁字母。在克罗地亚是官方语言。

    马其顿语(Macedonian),使用西里尔字母。是北马其顿的官方语言。

    马耳他语(Maltese),使用拉丁字母。在马耳他是官方语言。

    塞尔维亚语(Serbian),使用西里尔字母。在塞尔维亚是官方语言。

    波斯尼亚语(Bosnian),使用拉丁字母。在波斯尼亚和黑塞哥维那是官方语言之一。

    格鲁吉亚语(Georgian),使用格鲁吉亚字母(Georgian script)。在格鲁吉亚是官方语言。

    亚美尼亚语(Armenian),使用亚美尼亚字母。在亚美尼亚是官方语言。

    北阿塞拜疆语(North Azerbaijani),使用拉丁字母。在阿塞拜疆是官方语言。

    哈萨克语(Kazakh),使用西里尔字母。在哈萨克斯坦是官方语言。

    北乌兹别克语(Northern Uzbek),使用拉丁字母。在乌兹别克斯坦是官方语言。

    塔吉克语(Tajik),使用西里尔字母。在塔吉克斯坦是官方语言。

    斯瓦西里语(Swahili),使用拉丁字母。在东非许多国家是通用语或官方语言。

    南非语(Afrikaans),使用拉丁字母。主要在南非和纳米比亚使用。

    粤语(Cantonese),使用繁体字。主要在中国广东省、香港和澳门使用,是这些地区的主要语言之一。

    卢森堡语(Luxembourgish),使用拉丁字母。在卢森堡和德国部分地区使用,是官方语言之一。

    林堡语(Limburgish),使用拉丁字母。主要在荷兰、比利时和德国部分地区使用。

    加泰罗尼亚语(Catalan),使用拉丁字母。在加泰罗尼亚和其他部分西班牙地区使用。

    加利西亚语(Galician),使用拉丁字母。主要在西班牙加利西亚地区使用。

    阿斯图里亚斯语(Asturian),使用拉丁字母。主要在西班牙阿斯图里亚斯地区使用。

    巴斯克语(Basque),使用拉丁字母。主要在西班牙和法国的巴斯克地区使用,是西班牙巴斯克自治区的官方语言之一。

    奥克语(Occitan),使用拉丁字母。主要在法国南部地区使用。

    威尼斯语(Venetian),使用拉丁字母。主要在意大利威尼斯地区使用。

    撒丁语(Sardinian),使用拉丁字母。主要在意大利撒丁岛使用。

    西西里语(Sicilian),使用拉丁字母。主要在意大利西西里岛使用。

    弗留利语(Friulian),使用拉丁字母。主要在意大利弗留利-威尼斯朱利亚使用。

    隆巴底语(Lombard),使用拉丁字母。主要在意大利伦巴第地区使用。

    利古里亚语(Ligurian),使用拉丁字母。主要在意大利利古里亚地区使用。

    法罗语(Faroese),使用拉丁字母。主要在法罗群岛使用,是法罗群岛的官方语言之一。

    托斯克阿尔巴尼亚语(Tosk Albanian),使用拉丁字母。主要是阿尔巴尼亚南部方言。

    西里西亚语(Silesian),使用拉丁字母。主要在波兰使用。

    巴什基尔语(Bashkir),使用西里尔字母。主要在俄罗斯巴什科尔托斯坦使用。

    鞑靼语(Tatar),使用西里尔字母。主要在俄罗斯塔塔尔斯坦使用。

    美索不达米亚阿拉伯语(Mesopotamian Arabic),使用阿拉伯字母。主要在伊拉克使用。

    内志阿拉伯语(Najdi Arabic),使用阿拉伯字母。主要在沙特阿拉伯的内志地区使用。

    埃及阿拉伯语(Egyptian Arabic),使用阿拉伯字母。主要在埃及使用。

    黎凡特阿拉伯语(Levantine Arabic),使用阿拉伯字母。主要在叙利亚和黎巴嫩使用。

    闪米特阿拉伯语(Ta'izzi-Adeni Arabic),使用阿拉伯字母。主要在也门和沙特阿拉伯的哈德拉莫区域使用。

    达里语(Dari),使用阿拉伯字母。在阿富汗是官方语言之一。

    突尼斯阿拉伯语(Tunisian Arabic),使用阿拉伯字母。主要在突尼斯使用。

    摩洛哥阿拉伯语(Moroccan Arabic),使用阿拉伯字母。主要在摩洛哥使用。

    克里奥尔语(Kabuverdianu),使用拉丁字母。主要在佛得角使用。

    托克皮辛语(Tok Pisin),使用拉丁字母。在巴布亚新几内亚是主要的通用语之一。

    意第绪(Eastern Yiddish),使用希伯来字母。主要在犹太社区中使用。

    信德阿拉伯语(Sindhi),使用阿拉伯字母。在巴基斯坦信德省是官方语言之一。

    僧伽罗语(Sinhala),使用僧伽罗字母。在斯里兰卡是官方语言之一。

    泰卢固语(Telugu),使用泰卢固字母。在印度安得拉邦和特伦甘纳邦是官方语言之一。

    旁遮普语(Punjabi),使用古尔穆奇字母。在印度旁遮普邦使用,是印度的官方语言之一。

    泰米尔语(Tamil),使用泰米尔字母。在印度泰米尔纳德邦和斯里兰卡是官方语言之一。

    古吉拉特语(Gujarati),使用古吉拉特字母。在印度古吉拉特邦是官方语言之一。

    马拉雅拉姆语(Malayalam),使用马拉雅拉姆字母。在印度喀拉拉邦是官方语言之一。

    马拉地语(Marathi),使用天城字母。在印度马哈拉施特拉邦是官方语言之一。

    卡纳达语(Kannada),使用卡纳达字母。在印度卡纳塔克邦是官方语言之一。

    马加拉语(Magahi),使用天城文本。主要在印度比哈尔邦使用。

    奥里亚语(Oriya),使用乌尔都语字母。在印度奥迪沙邦是官方语言之一。

    阿瓦德语(Awadhi),使用天城字母。主要在印度北方邦使用。

    迈蒂利语(Maithili),使用天城字母。在印度比哈尔邦和尼泊尔特莱平原使用,是印度的官方语言之一。

    阿萨姆语(Assamese),使用孟加拉字母。在印度阿萨姆邦是官方语言之一。

    切蒂斯格尔语(Chhattisgarhi),使用天城字母。主要在印度切蒂斯格尔邦使用。

    比哈尔语(Bhojpuri),使用天城字母。在印度和尼泊尔部分地区使用。

    米南加保语(Minangkabau),使用拉丁字母。主要在印度尼西亚苏门答腊岛使用。

    巴厘语(Balinese),使用拉丁字母。主要在印度尼西亚巴厘岛使用。

    爪哇语(Javanese),使用拉丁字母(也惯用爪哇文字)。在印度尼西亚爪哇岛广泛使用。

    班章语(Banjar),使用拉丁字母。主要在印度尼西亚加里曼丹岛使用。

    巽他语(Sundanese),使用拉丁字母(虽然传统上使用巽他文字)。主要在印度尼西亚爪哇岛的西部使用。

    宿务语(Cebuano),使用拉丁字母。主要在菲律宾宿务地区使用。

    邦阿西楠语(Pangasinan),使用拉丁字母。主要在菲律宾邦阿西楠语省使用。

    伊洛卡诺语(Iloko),使用拉丁字母。主要在菲律宾使用。

    瓦莱语(Waray (Philippines)),使用拉丁字母。主要在菲律宾使用。

    海地语(Haitian),使用拉丁字母。在海地是官方语言之一。

    帕皮阿门托语(Papiamento),使用拉丁字母。主要在加勒比地区如阿鲁巴岛和库拉索岛使用。

  5. 回复格式:修复了之前版本存在的回复格式的问题,如异常 Markdown、中间截断、错误输出 boxed 等问题。

2025 年 4月发布的Qwen3 开源模型在思考模式下不支持非流式输出方式。

思考模式 | 非思考模式 | API 参考

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

模式

上下文长度

最大输入

最大思维链长度

最大回复长度

输入成本

输出成本

思维链+输出

免费额度

(注)

(Token数)

(每百万Token)

qwen3-next-80b-a3b-thinking

仅思考模式

131,072

126,976

81,920

32,768

1

10

100万 Token

有效期:百炼开通后90天内

qwen3-next-80b-a3b-instruct

仅非思考模式

129,024

-

4

qwen3-235b-a22b-thinking-2507

仅思考模式

126,976

81,920

2

20

qwen3-235b-a22b-instruct-2507

仅非思考模式

129,024

-

8

qwen3-30b-a3b-thinking-2507

仅思考模式

126,976

81,920

0.75

7.5

qwen3-30b-a3b-instruct-2507

仅非思考模式

129,024

-

3

qwen3-235b-a22b

本模型与以下模型均于2025 年 4月发布

非思考

129,024

-

16,384

2

8

思考

98,304

38,912

20

qwen3-32b

非思考

129,024

-

2

8

思考

98,304

38,912

20

qwen3-30b-a3b

非思考

129,024

-

0.75

3

思考

98,304

38,912

7.5

qwen3-14b

非思考

129,024

-

8,192

1

4

思考

98,304

38,912

10

qwen3-8b

非思考

129,024

-

0.5

2

思考

98,304

38,912

5

qwen3-4b

非思考

129,024

-

0.3

1.2

思考

98,304

38,912

3

qwen3-1.7b

非思考

32,768

30,720

-

1.2

思考

28,672

与输入相加不超过30,720

3

qwen3-0.6b

非思考

30,720

-

1.2

思考

28,672

与输入相加不超过30,720

3

全球

全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。

模型名称

模式

上下文长度

最大输入

最大思维链长度

最大回复长度

输入成本

输出成本

思维链+输出

免费额度

(注)

(Token数)

(每百万Token)

qwen3-next-80b-a3b-thinking

仅支持思考模式

131,072

126,976

81,920

32,768

1.101

8.807

无免费额度

qwen3-next-80b-a3b-instruct

仅非思考模式

129,024

-

qwen3-235b-a22b-thinking-2507

仅支持思考模式

126,976

81,920

1.688

16.88

qwen3-235b-a22b-instruct-2507

仅非思考模式

129,024

-

6.752

qwen3-30b-a3b-thinking-2507

仅支持思考模式

126,976

81,920

1.468

17.614

qwen3-30b-a3b-instruct-2507

仅非思考模式

129,024

-

5.871

qwen3-235b-a22b

非思考

129,024

-

16,384

5.137

20.55

思考

98,304

38,912

61.65

qwen3-32b

非思考

129,024

-

1.174

4.697

思考

98,304

38,912

qwen3-30b-a3b

非思考

129,024

-

1.468

5.871

思考

98,304

38,912

17.614

qwen3-14b

非思考

129,024

-

8,192

2.569

10.275

思考

98,304

38,912

30.825

qwen3-8b

非思考

129,024

-

1.321

5.137

思考

98,304

38,912

15.412

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

模式

上下文长度

最大输入

最大思维链长度

最大回复长度

输入成本

输出成本

思维链+输出

免费额度

(注)

(Token数)

(每百万Token)

qwen3-next-80b-a3b-thinking

仅支持思考模式

131,072

126,976

81,920

32,768

1.101

8.807

无免费额度

qwen3-next-80b-a3b-instruct

仅非思考模式

129,024

-

qwen3-235b-a22b-thinking-2507

仅支持思考模式

126,976

81,920

1.688

16.88

qwen3-235b-a22b-instruct-2507

仅非思考模式

129,024

-

6.752

qwen3-30b-a3b-thinking-2507

仅支持思考模式

126,976

81,920

1.468

17.614

qwen3-30b-a3b-instruct-2507

仅非思考模式

129,024

-

5.871

qwen3-235b-a22b

本模型与以下模型均于2025 年 4月发布

非思考

129,024

-

16,384

5.137

20.55

思考

98,304

38,912

61.65

qwen3-32b

非思考

129,024

-

1.174

4.697

思考

98,304

38,912

qwen3-30b-a3b

非思考

129,024

-

1.468

5.871

思考

98,304

38,912

17.614

qwen3-14b

非思考

129,024

-

8,192

2.569

10.275

思考

98,304

38,912

30.825

qwen3-8b

非思考

129,024

-

1.321

5.137

思考

98,304

38,912

15.412

qwen3-4b

非思考

129,024

-

0.807

3.082

思考

98,304

38,912

9.247

qwen3-1.7b

非思考

32,768

30,720

-

3.082

思考

28,672

与输入相加不超过30,720

9.247

qwen3-0.6b

非思考

30,720

-

3.082

思考

28,672

与输入相加不超过30,720

9.247

对于 Qwen3 模型,开启思考模式时如果没有输出思考过程,按非思考模式价格进行收费。

QwQ-开源版

基于 Qwen2.5-32B 模型训练的 QwQ 推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、LiveCodeBench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平,各指标均显著超过同样基于 Qwen2.5-32B 的 DeepSeek-R1-Distill-Qwen-32B。使用方法API 参考

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

上下文长度

最大输入

最大思维链长度

最大回复长度

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwq-32b

131,072

98,304

32,768

8,192

2

6

100万 Token

有效期:百炼开通后90天内

QwQ-Preview

qwq-32b-preview 模型是由 Qwen 团队于2024年开发的实验性研究模型,专注于增强 AI 推理能力,尤其是数学和编程领域。qwq-32b-preview 模型的局限性请参见QwQ官方博客使用方法 | API参考在线体验

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwq-32b-preview

Batch调用半价

32,768

30,720

16,384

2

6

100Token

有效期:百炼开通后90天内

Qwen2.5

Qwen2.5Qwen大型语言模型系列。针对Qwen2.5,我们发布了一系列基础语言模型和指令调优语言模型,参数规模从5亿到720亿不等。Qwen2.5Qwen2基础上进行了以下改进:

  • 在我们最新的大规模数据集上进行预训练,包含多达18万亿个Token。

  • 由于我们在这些领域的专业专家模型,模型的知识显著增多,编码和数学能力也大幅提高。

  • 在遵循指令、生成长文本(超过8K个标记)、理解结构化数据(例如表格)和生成结构化输出(尤其是JSON)方面有显著改进。对系统提示的多样性更具弹性,增强了聊天机器人的角色扮演实现和条件设置。

  • 支持超过29种语言,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。

使用方法 | API参考 | 在线体验

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度(注)

(Token数)

(每百万Token)

qwen2.5-14b-instruct-1m

1,000,000

1,000,000

8,192

1

3

100Token

有效期:百炼开通后90天内

qwen2.5-7b-instruct-1m

0.5

1

qwen2.5-72b-instruct

131,072

129,024

4

12

qwen2.5-32b-instruct

2

6

qwen2.5-14b-instruct

1

3

qwen2.5-7b-instruct

0.5

1

qwen2.5-3b-instruct

32,768

30,720

0.3

0.9

qwen2.5-1.5b-instruct

目前仅供免费体验

免费额度用完后不可调用,推荐使用Qwen3DeepSeekKimi作为替代模型

qwen2.5-0.5b-instruct

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度(注)

(Token数)

(每百万Token)

qwen2.5-14b-instruct-1m

1,008,192

1,000,000

8,192

5.908

23.632

无免费额度

qwen2.5-7b-instruct-1m

2.701

10.789

qwen2.5-72b-instruct

131,072

129,024

10.275

41.1

qwen2.5-32b-instruct

5.137

20.55

qwen2.5-14b-instruct

2.569

10.275

qwen2.5-7b-instruct

1.284

5.137

Qwen2

阿里云的通义千问2-开源版。使用方法 | API参考 | 在线体验

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万 Token)

qwen2-72b-instruct

131,072

128,000

6,144

4

12

100Token

有效期:百炼开通后90天内

qwen2-57b-a14b-instruct

65,536

63,488

3.5

7

qwen2-7b-instruct

131,072

128,000

1

2

qwen2-1.5b-instruct

32,768

30,720

限时免费

qwen2-0.5b-instruct

Qwen1.5

阿里云的通义千问1.5-开源版。使用方法 | API参考 | 在线体验

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万 Token)

qwen1.5-110b-chat

32,000

30,000

8,000

7

14

100Token

有效期:百炼开通后90天内

qwen1.5-72b-chat

2,000

5

10

qwen1.5-32b-chat

3.5

7

qwen1.5-14b-chat

8,000

6,000

2

4

qwen1.5-7b-chat

1

2

qwen1.5-1.8b-chat

32,000

30,000

限时免费

qwen1.5-0.5b-chat

QVQ

qvq-72b-preview模型是由 Qwen 团队开发的实验性研究模型,专注于提升视觉推理能力,尤其在数学推理领域。qvq-72b-preview模型的局限性请参见QVQ官方博客使用方法 | API参考

如果希望模型先输出思考过程再输出回答内容,请使用商业版模型QVQ
说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万 Token)

qvq-72b-preview

32,768

16,384

单图最大16384

16,384

12

36

10Token

有效期:百炼开通后90天内

Qwen-Omni

基于Qwen2.5训练的全新多模态理解生成大模型,支持文本、图像、语音、视频输入理解,具备文本和语音同时流式生成的能力,多模态内容理解速度显著提升。使用方法API 参考

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

上下文长度

最大输入

最大输出

免费额度

(注)

(Token数)

qwen2.5-omni-7b

32,768

30,720

2,048

100Token(不区分模态)

有效期:百炼开通后90

开源版模型的免费额度用完后,输入与输出的计费规则如下:

输入计费项

单价(每百万Token)

输入:文本

0.6

输入:音频

38

输入:图片/视频

2

输出计费项

单价(每百万Token)

输出:文本

2.4元(输入仅包含文本时)

6元(输入包含图片/音频/视频时)

输出:文本+音频

76元(音频)

输出的文本不计费。

计费示例:某次请求输入了100万 Token 的文本和100万 Token 的图片,输出了100万 Token 的文本和100万 Token 的音频,则该请求花费:0.6元(文本输入)+ 2元(图片输入)+ 76元(音频输出)= 78.6元。

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

上下文长度

最大输入

最大输出

免费额度

(注)

(Token数)

qwen2.5-omni-7b

32,768

30,720

2,048

无免费额度

输入与输出的计费规则如下:

输入计费项

单价(每百万Token)

输入:文本

0.734

输入:音频

49.613

输入:图片/视频

2.055

输出计费项

单价(每百万Token)

输出:文本

2.936元(输入仅包含文本时)

6.165元(输入包含图片/音频/视频时)

输出:文本+音频

99.153元(音频)

输出的文本不计费。

Qwen3-Omni-Captioner

Qwen3-Omni-Captioner以通义千问3-Omni为基座的开源模型,无需任何提示,自动为复杂语音、环境声、音乐、影视声效等生成精准、全面的描述,能识别说话人情绪、音乐元素(如风格、乐器)、敏感信息等,适用于音频内容分析、安全审核、意图识别、音频剪辑等多个领域。使用方法 | API 参考

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen3-omni-30b-a3b-captioner

65,536

32,768

32,768

15.8

12.7

100Token

有效期:阿里云百炼开通后90天内

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen3-omni-30b-a3b-captioner

65,536

32,768

32,768

27.962

22.458

无免费额度

Qwen-VL

阿里云的通义千问VL开源版。使用方法 | API参考

相较于Qwen2.5-VL,Qwen3-VL模型能力有极大提升:

  • 智能体交互:可操作电脑或手机界面,识别 GUI 元素、理解功能、调用工具执行任务,在 OS World 等评测中达到顶尖水平。

  • 视觉编码:可通过图像或视频生成代码,用于将设计图、网站截图等生成HTML、CSS、JS 代码。

  • 空间感知:支持二维和三维定位,精准判断物体方位、视角变化、遮挡关系。

  • 长视频理解:支持长达20分钟的视频内容理解,并能精确定位到秒级时刻。

  • 深度思考:具有深度思考能力, 擅长捕捉细节、分析因果,在 MathVista、MMMU 等评测中达到顶尖水平。

  • 文字识别:支持语言扩展至 33种,在复杂光线、模糊、倾斜等场景下表现更稳定;显著提升生僻字、古籍字、专业术语的识别准确率。

    支持的语言

    支持的语言共33种,分别为中文、日语、韩语、印尼语、越南语、泰语、英语、法语、德语、俄语、葡萄牙语、西班牙语、意大利语、瑞典语、丹麦语、捷克语、挪威语、荷兰语、芬兰语、土耳其语、波兰语、斯瓦希里语、罗马尼亚语、塞尔维亚语、希腊语、哈萨克语、乌兹别克语、宿务语、阿拉伯语、乌尔都语、波斯语、印地语 / 天城语、希伯来语。

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

模式

上下文长度

最大输入

最大思维链长度

最大回复长度

输入成本

输出成本

思维链+输出

免费额度

(注)

(Token数)

(每百万Token)

qwen3-vl-235b-a22b-thinking

仅思考模式

131,072

126,976

81,920

32,768

2

20

100万 Token

有效期:百炼开通后90天内

qwen3-vl-235b-a22b-instruct

仅非思考模式

129,024

-

8

qwen3-vl-32b-thinking

仅思考模式

126,976

81,920

2

20

qwen3-vl-32b-instruct

仅非思考模式

129,024

-

8

qwen3-vl-30b-a3b-thinking

仅思考模式

126,976

81,920

0.75

7.5

qwen3-vl-30b-a3b-instruct

仅非思考模式

129,024

-

3

qwen3-vl-8b-thinking

仅思考模式

126,976

81,920

0.5

5

qwen3-vl-8b-instruct

仅非思考模式

129,024

-

2

更多模型

Qwen2.5-VL是视觉理解系列大模型,在Qwen2-VL的基础上做了如下改进:

  • 感知更丰富的世界:Qwen2.5-VL不仅擅长识别常见物体,如花、鸟、鱼和昆虫等,还能分析图像中的文本、图表、图标、图形和布局等。

  • 长视频理解能力:支持对长视频文件(最长10分钟)进行理解,具备通过精准定位相关视频片段来捕捉事件的新能力

  • 视觉定位:Qwen2.5-VL可通过生成bounding box(矩形框的左上角和右下角坐标)或者point(矩形框的中心点坐标)来准确定位图像中的物体,并能够为坐标和属性提供稳定的JSON输出。

  • 结构化输出:可支持对发票、表单、表格等数据进行结构化输出,惠及金融、商业等领域的应用。

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen2.5-vl-72b-instruct

131,072

129,024

单图最大16384

8,192

16

48

100Token

有效期:百炼开通后90天内

qwen2.5-vl-32b-instruct

8

24

qwen2.5-vl-7b-instruct

2

5

qwen2.5-vl-3b-instruct

1.2

3.6

qwen2-vl-72b-instruct

32,768

30,720

单图最大16384

2,048

16

48

qwen2-vl-7b-instruct

32,000

30,000

单图最大16384

2,000

目前仅供免费体验。

免费额度用完后不可调用,建议改用qwen-vl-max、qwen-vl-plus模型。

10Token

有效期:百炼开通后90天内

qwen2-vl-2b-instruct

限时免费

qwen-vl-v1

8,000

6,000

单图最大1280

1,500

目前仅供免费体验。

免费额度用完后不可调用,建议改用qwen-vl-max、qwen-vl-plus模型。

qwen-vl-chat-v1

全球

全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。

模型名称

模式

上下文长度

最大输入

最大思维链长度

最大回复长度

输入成本

输出成本

思维链+输出

免费额度

(注)

(Token数)

(每百万Token)

qwen3-vl-235b-a22b-thinking

仅思考模式

131,072

126,976

81,920

32,768

2.936

29.357

无免费额度

qwen3-vl-235b-a22b-instruct

仅非思考模式

129,024

-

11.743

qwen3-vl-32b-thinking

仅思考模式

126,976

81,920

1.174

4.697

qwen3-vl-32b-instruct

仅非思考模式

129,024

-

qwen3-vl-30b-a3b-thinking

仅思考模式

126,976

81,920

1.468

17.614

qwen3-vl-30b-a3b-instruct

仅非思考模式

129,024

-

5.871

qwen3-vl-8b-thinking

仅思考模式

126,976

81,920

1.321

15.412

qwen3-vl-8b-instruct

仅非思考模式

129,024

-

5.137

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

模式

上下文长度

最大输入

最大思维链长度

最大回复长度

输入成本

输出成本

思维链+输出

免费额度

(注)

(Token数)

(每百万Token)

qwen3-vl-235b-a22b-thinking

仅思考模式

126,976

81,920

2.936

29.357

无免费额度

qwen3-vl-235b-a22b-instruct

仅非思考模式

129,024

-

11.743

qwen3-vl-32b-thinking

仅思考模式

131,072

126,976

81,920

32,768

1.174

4.697

qwen3-vl-32b-instruct

仅非思考模式

129,024

-

4.697

qwen3-vl-30b-a3b-thinking

仅思考模式

126,976

81,920

1.468

17.614

qwen3-vl-30b-a3b-instruct

仅非思考模式

129,024

-

5.871

qwen3-vl-8b-thinking

仅思考模式

126,976

81,920

1.321

15.412

qwen3-vl-8b-instruct

仅非思考模式

129,024

-

5.137

更多模型

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen2.5-vl-72b-instruct 

131,072

129,024

单图最大16384

8,192

20.55

61.65

无免费额度

qwen2.5-vl-32b-instruct

10.275

30.825

qwen2.5-vl-7b-instruct

2.569

7.706

qwen2.5-vl-3b-instruct

1.541

4.624

Qwen-Audio

阿里云的通义千问Audio开源版。使用方法

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万 Token)

qwen2-audio-instruct

相比qwen-audio-chat提升了音频理解能力,且新增了语音聊天能力。

8,000

6,000

1,500

目前仅供免费体验。

免费额度用完后不可调用,推荐使用Qwen-Omni作为替代模型

10Token

有效期:阿里云百炼开通后90天内

qwen-audio-chat

Qwen-Math

基于Qwen模型构建的专门用于数学解题的语言模型。Qwen2.5-Math支持中文英文,并整合了多种推理方法,包括CoT(Chain of Thought)、PoT(Program of Thought)和 TIR(Tool-Integrated Reasoning)。使用方法 | API参考 | 在线体验

说明

仅支持中国内地部署模式。接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

输入价格

输出价格

上下文长度

最大输入

最大输出

免费额度

(注)

(每百万Token)

(Token数)

qwen2.5-math-72b-instruct

4

12

4,096

3,072

3,072

100Token

有效期:百炼开通后90天内

qwen2.5-math-7b-instruct

1

2

qwen2.5-math-1.5b-instruct

限时免费

限时免费

Qwen-Coder

通义千问代码模型开源版。最新的 Qwen3-Coder系列具有强大的Coding Agent能力,擅长工具调用和环境交互,能够实现自主编程、代码能力卓越的同时兼具通用能力。使用方法 | API参考 | 在线体验

中国内地

中国内地部署模式下,接入点与数据存储均位于北京地域,模型推理计算资源仅限于中国内地。

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen3-coder-480b-a35b-instruct

262,144

204,800

65,536

阶梯计价,请参见表格下方说明。

100Token

有效期:百炼开通后90天内

qwen3-coder-30b-a3b-instruct

qwen3-coder-480b-a35b-instruct 与 qwen3-coder-30b-a3b-instruct 根据本次请求输入的 Token数,采取阶梯计费。

模型名称

单次请求的输入 Token 数

输入成本(每百万Token)

输出成本(每百万Token)

qwen3-coder-480b-a35b-instruct

0<Token≤32K

6

24

32K<Token≤128K

9

36

128K<Token≤200K

15

60

qwen3-coder-30b-a3b-instruct

0<Token≤32K

1.5

6

32K<Token≤128K

2.25

9

128K<Token≤200K

3.75

15

更多模型

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen2.5-coder-32b-instruct

131,072

129,024

8,192

2

6

100Token

有效期:百炼开通后90天内

qwen2.5-coder-14b-instruct

qwen2.5-coder-7b-instruct

1

2

qwen2.5-coder-3b-instruct

32,768

30,720

限时免费体验

qwen2.5-coder-1.5b-instruct

qwen2.5-coder-0.5b-instruct

全球

全球部署模式下,接入点与数据存储均位于美国(弗吉尼亚)地域,模型推理计算资源在全球范围内动态调度。

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen3-coder-480b-a35b-instruct

262,144

204,800

65,536

阶梯计价,请参见表格下方说明。

无免费额度

qwen3-coder-30b-a3b-instruct

qwen3-coder-480b-a35b-instruct 与 qwen3-coder-30b-a3b-instruct 根据本次请求输入的 Token数,采取阶梯计费。

模型名称

单次请求的输入 Token 数

输入成本(每百万Token)

输出成本(每百万Token)

qwen3-coder-480b-a35b-instruct

0<Token≤32K

11.009

55.044

32K<Token≤128K

19.816

99.08

128K<Token≤200K

33.027

165.133

qwen3-coder-30b-a3b-instruct

0<Token≤32K

3.303

16.513

32K<Token≤128K

5.504

27.522

128K<Token≤200K

8.807

44.035

国际

国际部署模式下,接入点与数据存储均位于新加坡地域,模型推理计算资源在全球范围内动态调度(不含中国内地)。

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每百万Token)

qwen3-coder-480b-a35b-instruct

262,144

204,800

65,536

阶梯计价,请参见表格下方说明。

无免费额度

qwen3-coder-30b-a3b-instruct

qwen3-coder-480b-a35b-instruct 与 qwen3-coder-30b-a3b-instruct 根据本次请求输入的 Token数,采取阶梯计费。

模型名称

单次请求的输入 Token 数

输入成本(每百万Token)

输出成本(每百万Token)

qwen3-coder-480b-a35b-instruct

0<Token≤32K

11.009

55.044

32K<Token≤128K

19.816

99.08

128K<Token≤200K

33.027

165.133

qwen3-coder-30b-a3b-instruct

0<Token≤32K

3.303

16.513

32K<Token≤128K

5.504

27.522

128K<Token≤200K

8.807

44.035

基础限流

关于模型的限流条件,请参见限流