通义大模型介绍

通义大模型是由阿里云自主研发的模型,凭借万亿级大规模数据训练和领先的算法框架,在多个领域和任务中提供智能化服务。通义系列涵盖自然语言、视觉、视频及语音四大方向,包括:通义千问系列、通义万相-图像生成系列、通义万相-视频生成系列、语音合成与识别系列。

模型体验

您可以在阿里云百炼的模型广场在线体验通义大模型,或访问阿里云官网-通义大模型了解更多应用案例。

应用场景

  • 文字创作与处理:撰写故事、公文、邮件、剧本和诗歌等,对文本进行润色或提取摘要。

  • 图像理解:对图像内容进行描述或定位,识别图像中的文字、公式并支持格式化输出文本。

  • 音频理解:对音频内容进行描述或进行语音对话,并支持直接输出音频文件。

  • 语音识别与合成:为会议、演讲、培训、庭审等提供实时记录,或将文字转换为客服提醒、导航播报等。

  • 图像生成与编辑:一句话生成图像,或对图像进行扩图、去水印、风格迁移、图像修复、美化等。

  • 视频生成与编辑:一句话生成舞蹈、唱演、播报等类型的视频,或者对视频风格进行重绘等。

文本生成-通义千问

通义千问系列模型可理解自然语言及图片、音频、视频等多模态数据。用户可通过一句话概述、复杂任务描述或直接提问多模态内容,模型即可创作出有逻辑、连贯的文本内容

以下是通义千问模型的商业版。相较于开源版,商业版具有最新的能力和改进。

各模型会不定期更新升级。如需使用固定版本,请选择快照版本。快照版本通常维护至下个快照版本发布时间的后一个月。

QwQ

QwQ是基于Qwen2.5 模型训练的推理模型,通过强化学习大幅度提升了模型的推理能力,模型会先输出思考过程,再输出回答内容。其数学代码等核心指标(AIME 24/25、LiveCodeBench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平。使用方法

您可以通过以下组件体验QwQ的推理过程:

QwQ 不支持关闭思考过程且仅支持流式输出。

支持的模型

模型名称

版本

上下文长度

最大输入

最大思维链长度

最大回复长度

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwq-plus

当前等同 qwq-plus-2025-03-05

稳定版

131,072

98,304

32,768

8,192

0.0016

Batch调用:0.0008

0.004

Batch调用:0.002

100万 Token

有效期:百炼开通后180天内

qwq-plus-latest

始终等同最新快照版

最新版

0.0016

0.004

qwq-plus-2025-03-05

又称qwq-plus-0305

快照版

通义千问-Max、通义千问-Plus 和通义千问-Turbo 均适用于智能客服、文本创作(如撰写文稿、文案创作)、文本润色以及总结摘要等多种场景。但是三者在推理能力与响应速度上有一定的差别。

通义千问-Max

通义千问-Max是通义千问系列效果最好的模型,适合复杂、多步骤的任务。使用方法API参考在线体验

支持的模型

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen-max

当前等同qwen-max-2024-09-19

Batch调用半价

稳定版

32,768

30,720

8,192

0.0024

0.0096

100Token

有效期:百炼开通后180天内

qwen-max-latest

始终等同最新快照版

Batch调用半价

最新版

131,072

129,024

qwen-max-2025-01-25

又称qwen-max-0125、Qwen2.5-Max

快照版

qwen-max-2024-09-19

又称qwen-max-0919

32,768

30,720

0.02

0.06

qwen-max-2024-04-28

又称qwen-max-0428

8,000

6,000

2,000

0.04

0.12

qwen-max-2024-04-03

又称qwen-max-0403

通义千问-PLus

通义千问-Plus模型的能力均衡,推理效果、成本和速度介于通义千问-Max和通义千问-Turbo之间,适合中等复杂任务。如果您暂时不确定选择哪个模型,建议优先尝试使用通义千问-Plus。其中 qwen-plus-latest 与 qwen-plus-2025-04-28 同时支持思考模式与非思考模式。使用方法API参考在线体验思考模式

支持的模型

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen-plus

当前等同qwen-plus-2025-01-25

Batch调用半价

稳定版

131,072

129,024

8,192

0.0008

0.002

100Token

有效期:百炼开通后180天内

qwen-plus-latest

始终等同最新快照版

Batch调用半价

最新版

思考模式

98,304

非思考模式

129,024

16,384

思维链最长38,912

思考模式

0.016

非思考模式

0.002

qwen-plus-2025-04-28

又称qwen-plus-0428
属于Qwen3系列

快照版

qwen-plus-2025-01-25

又称qwen-plus-0125

129,024

8,192

0.002

qwen-plus-2025-01-12

又称qwen-plus-0112

qwen-plus-2024-12-20

又称qwen-plus-1220

qwen-plus-2024-11-27

又称qwen-plus-1127

qwen-plus-2024-11-25

又称qwen-plus-1125

qwen-plus-2024-09-19

又称qwen-plus-0919

qwen-plus-2024-08-06

又称qwen-plus-0806

128,000

0.004

0.012

qwen-plus-2024-07-23

又称qwen-plus-0723​

32,000

30,000

8,000

通义千问-Trubo

通义千问-Trubo模型是通义千问系列速度最快、成本极低的模型,适合简单任务。其中 qwen-turbo-latest 与 qwen-turbo-2025-04-28 同时支持思考模式与非思考模式。使用方法 | API参考 | 在线体验思考模式

支持的模型

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen-turbo

当前等同 qwen-turbo-2025-02-11

Batch调用半价

稳定版

1,000,000

1,000,000

8,192

0.0003

0.0006

100Token

有效期:百炼开通后180天内

qwen-turbo-latest

始终等同最新快照版

Batch调用半价

最新版

思考模式

131,072

非思考模式

1,000,000

思考模式

98,304

非思考模式

1,000,000

16,384

思维链最长38,912

思考模式

0.006

非思考模式

0.0006

qwen-turbo-2025-04-28

又称qwen-turbo-0428
属于Qwen3系列

快照版

qwen-turbo-2025-02-11

又称qwen-turbo-0211

1,000,000

1,000,000

8,192

0.0006

qwen-turbo-2024-11-01

又称qwen-turbo-1101

1000Token

有效期:百炼开通后180天内

qwen-turbo-2024-09-19

又称qwen-turbo-0919

131,072

129,024

100Token

有效期:百炼开通后180天内

qwen-turbo-2024-06-24

又称qwen-turbo-0624

8,000

6,000

2,000

0.002

0.006

最新的qwen-plus-2025-04-28、qwen-plus-latest 、qwen-plus-2025-04-28与 qwen-plus-latest 模型支持思考模式和非思考模式,您可以通过 enable_thinking 参数实现两种模式的切换。除此之外,模型的能力得到了大幅提升:

  1. 推理能力:在数学、代码和逻辑推理等评测中,显著超过 QwQ 和同尺寸的非推理模型,达到同规模业界顶尖水平。

  2. 人类偏好能力:创意写作、角色扮演、多轮对话、指令遵循能力均大幅提升,通用能力显著超过同尺寸模型。

  3. Agent 能力:在思考、非思考两种模式下都达到业界领先水平,能精准调用外部工具。

  4. 多语言能力:支持100多种语言和方言,多语言翻译、指令理解、常识推理能力都明显提升。

  5. 回复格式:修复了之前版本存在的回复格式的问题,如异常 Markdown、中间截断、错误输出 boxed 等问题。

对于 qwen-plus-2025-04-28 、 qwen-plus-latest、 qwen-turbo-latest 与 qwen-turbo-2025-04-28 模型,开启思考模式时如果没有输出思考过程,按非思考模式价格进行收费。

通义千问-Long

通义千问-Long模型是通义千问系列上下文窗口最长,能力均衡且成本较低的模型,适合长文本分析、信息抽取、总结摘要和分类打标等任务。使用方法 | 在线体验

支持的模型

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen-long

稳定版

10,000,000

10,000,000

8,192

0.0005

Batch调用半价

0.002

Batch调用半价

100Token

有效期:百炼开通后180天内

qwen-long-latest

始终等同最新快照版

最新版

qwen-long-2025-01-25

又称qwen-long-0125

快照版

0.0005

0.002

通义千问Omni

通义千问全新多模态理解生成大模型,支持文本、图像、语音与视频输入,并输出文本与音频,闭源版模型还提供了4种自然对话音色。使用方法API 参考

相较于 视觉理解与 音频理解 模型,Qwen-Omni 模型可以:

  • 理解视频文件中的视觉与音频信息;

  • 理解多种模态的数据;

  • 输出音频。

在视觉理解、音频理解等能力上,Qwen-Omni 模型也表现出色。

支持的模型

模型名称

版本

上下文长度

最大输入

最大输出

免费额度

(注)

(Token数)

qwen-omni-turbo

当前等同qwen-omni-turbo-2025-03-26

稳定版

32,768

30,720

2,048

100Token(不区分模态)

有效期:百炼开通后180天内

qwen-omni-turbo-latest

始终等同最新快照版

最新版

qwen-omni-turbo-2025-03-26

又称qwen-omni-turbo-0326

快照版

qwen-omni-turbo-2025-01-19

又称qwen-omni-turbo-0119

商业版模型的免费额度用完后,输入与输出的计费规则如下:

稳定版模型qwen-omni-turbo支持Batch调用,费用为以下价格的50%。注:Batch调用不支持抵扣免费额度。

输入计费项

单价(每千 Token)

输入:文本

0.0004

输入:音频

0.025

输入:图片/视频

0.0015

输出计费项

单价(每千 Token)

输出:文本

0.0016元(输入仅包含文本时)

0.0045元(输入包含图片/音频/视频时)

输出:文本+音频

0.05元(音频)

输出的文本不计费。

计费示例:某次请求输入了1000 Token 的文本和1000 Token 的图片,输出了1000 Token 的文本和1000 Token 的音频,则该请求花费:0.0004元(文本输入)+ 0.0015元(图片输入)+ 0.05元(音频输出)= 0.0519元。在Batch调用模式下,该请求花费按50%计收,为0.02595元。

通义千问Omni-Realtime

Qwen-Omni 实时 API 提供了低延迟的多模态交互能力,支持音频的流式输入,并能够流式输出文本和音频。

相比于 Qwen-Omni 模型,Qwen-Omni 实时模型可以:

  • 音频流式输入:Qwen-Omni 模型只能接收音频文件作为输入,而 Qwen-Omni 实时模型可以实时接收音频流;

  • 语音活动检测:Qwen-Omni 实时模型内置 VAD(Voice Activity Detection,语音活动检测)功能,可自动检测用户语音的开始和结束;

模型支持的音色包括Chelsie、Serena、EthanCherry。

支持的模型

模型名称

版本

上下文长度

最大输入

最大输出

免费额度

(注)

(Token数)

qwen-omni-turbo-realtime

当前等同qwen-omni-turbo-2025-05-08

稳定版

32,768

30,720

2,048

100Token(不区分模态)

有效期:百炼开通后180天内

qwen-omni-turbo-realtime-latest

始终等同最新快照版

最新版

qwen-omni-turbo-realtime-2025-05-08

快照版

免费额度用完后,输入与输出的计费规则如下:

输入计费项

单价(每千 Token)

输入:文本

0.0016

输入:音频

0.025

输入:图片/视频

0.006

输出计费项

单价(每千 Token)

输出:文本

0.0064元(输入仅包含文本时)

0.018元(输入包含音频时)

输出:文本+音频

0.05元(音频)

输出的文本不计费。

QVQ

QVQ是视觉推理模型,支持视觉输入及思维链输出,在数学、编程、视觉分析、创作以及通用任务上都表现了更强的能力。使用方法

QVQ模型当前仅支持以流式输出方式调用,并且仅支持增量流式返回,也不支持设置 System Message。

您可以通过以下组件体验QVQ的推理过程:

支持的模型

模型名称

版本

上下文长度

最大输入

最大思维链长度

最大回复长度

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qvq-max

相比 qvq-plus 具有更强的视觉推理和指令遵循能力,在更多复杂任务中提供最佳性能。
当前等同 qvq-max-2025-03-25

稳定版

131,072

106,496

单图最大16384

16,384

8,192

0.008

0.032

100万 Token

有效期:百炼开通后180天内

qvq-max-latest

始终等同最新快照版

最新版

qvq-max-2025-05-15

又称qvq-max-0515

快照版

qvq-max-2025-03-25

又称qvq-max-0325

qvq-plus

当前等同 qvq-plus-2025-05-15

稳定版

0.002

0.005

qvq-plus-latest

始终等同最新快照版

最新版

qvq-plus-2025-05-15

又称qvq-plus-0515

快照版

通义千问VL

通义千问VL是具有视觉(图像)理解能力的文本生成模型,不仅能进行总结和推理,例如商品照片从中提取属性,根据习题图进行解题,对视频中的具体事件进行定位并获取时间戳等,还能够定位图像中的物体,进行文档解析。使用方法API参考在线体验

通义千问VL模型按输入和输出的总Token数进行计费。
图像Token的计算规则:每28x28像素对应一个Token,一张图最少需要4Token。详细计算规则请参见视觉理解

支持的模型

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen-vl-max

相比qwen-vl-plus再次提升视觉推理和指令遵循能力,在更多复杂任务中提供最佳性能
当前等同qwen-vl-max-2025-04-08

稳定版

131,072

129,024

单图最大16384

8,192

0.003

Batch调用半价

0.009

Batch调用半价

100Token

有效期:百炼开通后180天内

qwen-vl-max-latest

始终等同最新快照版

最新版

qwen-vl-max-2025-04-08

又称qwen-vl-max-0408
增强数学和推理能力

快照版

0.003

0.009

qwen-vl-max-2025-04-02

又称qwen-vl-max-0402
显著提高解决复杂数学问题的准确性

qwen-vl-max-2025-01-25

又称qwen-vl-max-0125
升级至Qwen2.5-VL系列,扩展上下文至128k,显著增强图像和视频的理解能力

qwen-vl-max-2024-12-30

又称qwen-vl-max-1230

32,768

30,720

单图最大16384

2,048

qwen-vl-max-2024-11-19

又称qwen-vl-max-1119

qwen-vl-max-2024-10-30

又称qwen-vl-max-1030

0.02

qwen-vl-max-2024-08-09

又称qwen-vl-max-0809

qwen-vl-plus

当前等同qwen-vl-plus-2025-01-25

稳定版

131,072

129,024

单图最大16384

8,192

0.0015

Batch调用半价

0.0045

Batch调用半价

qwen-vl-plus-latest

始终等同最新快照版

最新版

0.0015

0.0045

qwen-vl-plus-2025-05-07

又称qwen-vl-plus-0507
显著提升数学、推理、监控视频内容的理解能力

快照版

qwen-vl-plus-2025-01-25

又称qwen-vl-plus-0125
升级至Qwen2.5-VL系列,扩展上下文至128k,显著增强图像和视频理解能力

qwen-vl-plus-2025-01-02

又称qwen-vl-plus-0102

32,768

30,720

单图最大16384

2,048

qwen-vl-plus-2024-08-09

又称qwen-vl-plus-0809

qwen-vl-plus-2023-12-01

8,000

6,000

2,000

0.008

通义千问OCR

通义千问OCR模型是专用于文字提取的模型。相较于通义千问VL模型,它更专注于文档、表格、试题、手写体文字等类型图像的文字提取能力。它能够识别多种语言,包括英语、法语、日语、韩语、德语、俄语和意大利语等。使用方法 | API参考在线体验

支持的模型

模型名称

版本

上下文长度

最大输入

最大输出

输入输出单价

免费额度

(注)

(Token数)

(每千Token)

qwen-vl-ocr

当前等同qwen-vl-ocr-2024-10-28

稳定版

34,096

30,000

单图最大30000

4,096

0.005

100Token

有效期:百炼开通后180天内

qwen-vl-ocr-latest

始终等同最新快照版

最新版

38,192

8,192

qwen-vl-ocr-2025-04-13

又称qwen-vl-ocr-0413
大幅提升文字识别能力,新增六种内置的OCR任务,增加了自定义Prompt、图像旋转矫正等功能。

快照版

qwen-vl-ocr-2024-10-28

又称qwen-vl-ocr-1028

快照版

34,096

4,096

通义千问Audio

通义千问Audio是音频理解模型,支持输入多种音频(人类语音、自然音、音乐、歌声)和文本,并输出文本。该模型不仅能对输入的音频进行转录,还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。使用方法

通义千问Audio模型按输入和输出的总Token数进行计费。
音频转换为Token的规则:每一秒钟的音频对应25Token。若音频时长不足1秒,则按25Token计算。

支持的模型

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen-audio-turbo

当前等同qwen-audio-turbo-2024-08-07

稳定版

8,000

6,000

1,500

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

10Token

有效期:百炼开通后180天内

qwen-audio-turbo-latest

始终等同最新快照版

最新版

8,192

6,144

2,048

qwen-audio-turbo-2024-12-04

又称qwen-audio-turbo-1204
大幅提升语音识别准确率,且新增了语音聊天能力。

快照版

qwen-audio-turbo-2024-08-07

又称qwen-audio-turbo-0807

8,000

6,000

1,500

通义千问ASRBeta版本

通义千问ASR是基于Qwen-Audio训练,专用于语音识别的模型。目前支持的语言有:中文和英文。使用方法

通义千问Audio与通义千问ASR(Beta版本)的区别

  • 功能对比:

    • 通义千问Audio模型是对话模型,不仅能够进行语音识别,还具备更深层次的语义理解、语音聊天等能力,支持设置提示词。

    • 通义千问ASR模型是专用于语音识别的模型,不支持设置提示词(包括System PromptUser Prompt)。

  • 准确率对比:

    • 在语音识别准确率上,通义千问ASR模型高于通义千问Audio模型。

  • 音频时长对比:

    • 通义千问Audio模型:30秒内。

    • 通义千问ASR模型:3分钟以内。

  • 支持识别的语言对比

    • 通义千问Audio模型:中文、英文、粤语、法语、意大利语、西班牙语、德语和日语。

    • 通义千问ASR模型:中文、英文。目前通义千问ASRBeta版本,后续版本中将会陆续支持更多语言的识别。

支持的模型

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen-audio-asr

当前等同qwen-audio-asr-2024-12-04

稳定版

8,192

6,144

2,048

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

10Token

有效期:百炼开通后180天内

qwen-audio-asr-latest

始终等同最新快照版

最新版

qwen-audio-asr-2024-12-04 

又称qwen-audio-asr-1204 

快照版

通义千问数学模型

通义千问数学模型是专门用于数学解题的语言模型。使用方法 | API参考 | 在线体验

支持的模型

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen-math-plus

当前等同qwen-math-plus-2024-09-19

稳定版

4,096

3,072

3,072

0.004

0.012

100Token

有效期:百炼开通后180天内

qwen-math-plus-latest

始终等同最新快照版

最新版

qwen-math-plus-2024-09-19

又称qwen-math-plus-0919

快照版

qwen-math-plus-2024-08-16

又称qwen-math-plus-0816

qwen-math-turbo

当前等同qwen-math-turbo-2024-09-19

稳定版

0.002

0.006

qwen-math-turbo-latest

始终等同最新快照版

最新版

qwen-math-turbo-2024-09-19

又称qwen-math-turbo-0919

快照版

通义千问Coder

通义千问代码模型。使用方法 | API参考 | 在线体验

  • 如果您对代码相关的任务或在复杂场景下的任务效果有要求,建议选择qwen-coder-plusqwen2.5-coder-32b-instruct,这些模型在代码生成、代码修复、代码推理能力上具备业界领先水平。

  • 如果您对模型推理速度有要求,如在补全场景下使用,建议选择qwen-coder-turboqwen2.5-coder-7b-instruct,这些模型响应较快,且仍然有较好的代码能力。

支持的模型

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen-coder-plus

当前等同qwen-coder-plus-2024-11-06

稳定版

131,072

129,024

8,192

0.0035

0.007

100Token

有效期:百炼开通后180天内

qwen-coder-plus-latest

等同qwen-coder-plus最新的快照版本

最新版

qwen-coder-plus-2024-11-06

又称qwen-coder-plus-1106

快照版

qwen-coder-turbo

当前等同qwen-coder-turbo-2024-09-19

稳定版

131,072

129,024

8,192

0.002

0.006

qwen-coder-turbo-latest

等同qwen-coder-turbo最新的快照版本

最新版

qwen-coder-turbo-2024-09-19

又称qwen-coder-turbo-0919

快照版

通义千问翻译模型

基于通义千问模型优化的机器翻译大语言模型,擅长中英互译、中文与小语种互译、英文与小语种互译,小语种包括日、韩、法、西、德、葡(巴西)、泰、印尼、越、阿等26种。在多语言互译的基础上,提供术语干预、领域提示、记忆库等能力,提升模型在复杂应用场景下的翻译效果。使用方法

如果您对翻译质量有较高要求,建议选择qwen-mt-plus模型;如果您希望翻译速度更快或成本更低,建议选择qwen-mt-turbo模型。

支持的模型

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

(每百万Token)

qwen-mt-plus

2,048

1,024

1,024

0.015

0.045

50Token

有效期:百炼开通后180天内

qwen-mt-turbo

0.001

0.003

文本生成-通义千问-开源版

  • 模型名称中,xxb表示参数规模,例如qwen2-72b-instruct表示参数规模为72B,即720亿。

  • 百炼支持调用通义千问的开源版,您无需本地部署模型。对于开源版,建议使用Qwen3Qwen2.5模型。

Qwen3

Qwen3 模型支持思考模式和非思考模式,您可以通过 enable_thinking 参数实现两种模式的切换。除此之外,Qwen3 模型的能力得到了大幅提升:

  1. 推理能力:在数学、代码和逻辑推理等评测中,显著超过 QwQ 和同尺寸的非推理模型,达到同规模业界顶尖水平。

  2. 人类偏好能力:创意写作、角色扮演、多轮对话、指令遵循能力均大幅提升,通用能力显著超过同尺寸模型。

  3. Agent 能力:在推理、非推理两种模式下都达到业界领先水平,能精准调用外部工具。

  4. 多语言能力:支持100多种语言和方言,多语言翻译、指令理解、常识推理能力都明显提升。

  5. 回复格式:修复了之前版本存在的回复格式的问题,如异常 Markdown、中间截断、错误输出 boxed 等问题。

Qwen3 开源模型在思考模式下不支持非流式输出方式。

思考模式 | 非思考模式 | API 参考

支持的模型

模型名称

模式

上下文长度

最大输入

最大思维链长度

最大回复长度

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen3-235b-a22b

非思考

131,072

129,024

-

16,384

0.002

0.008

100万 Token

有效期:百炼开通后180天内

思考

98,304

38,912

0.02

qwen3-32b

非思考

129,024

-

0.002

0.008

思考

98,304

38,912

0.02

qwen3-30b-a3b

非思考

129,024

-

0.00075

0.003

思考

98,304

38,912

0.0075

qwen3-14b

非思考

129,024

-

8,192

0.001

0.004

思考

98,304

38,912

0.01

qwen3-8b

非思考

129,024

-

0.0005

0.002

思考

98,304

38,912

0.005

qwen3-4b

非思考

129,024

-

0.0003

0.0012

思考

98,304

38,912

0.003

qwen3-1.7b

非思考

32,768

30,720

-

0.0012

思考

28,672

与输入相加不超过30,720

0.003

qwen3-0.6b

非思考

30,720

-

0.0012

思考

28,672

与输入相加不超过30,720

0.003

对于 Qwen3 模型,开启思考模式时如果没有输出思考过程,按非思考模式价格进行收费。

QwQ-开源版

基于 Qwen2.5-32B 模型训练的 QwQ 推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、LiveCodeBench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平,各指标均显著超过同样基于 Qwen2.5-32B 的 DeepSeek-R1-Distill-Qwen-32B。使用方法

支持的模型

模型名称

上下文长度

最大输入

最大思维链长度

最大回复长度

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwq-32b

131,072

98,304

32,768

8,192

0.002

0.006

100万 Token

有效期:百炼开通后180天内

QwQ-Preview

qwq-32b-preview 模型是由 Qwen 团队于2024年开发的实验性研究模型,专注于增强 AI 推理能力,尤其是数学和编程领域。qwq-32b-preview 模型的局限性请参见QwQ官方博客使用方法 | API参考在线体验

支持的模型

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwq-32b-preview

32,768

30,720

16,384

0.002

Batch调用半价

0.006

Batch调用半价

100Token

有效期:百炼开通后180天内

Qwen2.5

Qwen2.5Qwen大型语言模型系列。针对Qwen2.5,我们发布了一系列基础语言模型和指令调优语言模型,参数规模从5亿到720亿不等。Qwen2.5Qwen2基础上进行了以下改进:

  • 在我们最新的大规模数据集上进行预训练,包含多达18万亿个Token。

  • 由于我们在这些领域的专业专家模型,模型的知识显著增多,编码和数学能力也大幅提高。

  • 在遵循指令、生成长文本(超过8K个标记)、理解结构化数据(例如表格)和生成结构化输出(尤其是JSON)方面有显著改进。对系统提示的多样性更具弹性,增强了聊天机器人的角色扮演实现和条件设置。

  • 支持超过29种语言,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。

使用方法 | API参考 | 在线体验

支持的模型

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen2.5-14b-instruct-1m

1,000,000

1,000,000

8,192

0.001

0.003

100Token

有效期:百炼开通后180天内

qwen2.5-7b-instruct-1m

0.0005

0.001

qwen2.5-72b-instruct

131,072

129,024

0.004

0.012

qwen2.5-32b-instruct

0.002

0.006

qwen2.5-14b-instruct

0.001

0.003

qwen2.5-7b-instruct

0.0005

0.001

qwen2.5-3b-instruct

32,768

30,720

0.0003

0.0009

qwen2.5-1.5b-instruct

限时免费

qwen2.5-0.5b-instruct

Qwen2

阿里云的通义千问2-开源版。使用方法 | API参考 | 在线体验

支持的模型

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen2-72b-instruct

131,072

128,000

6,144

0.004

0.012

100Token

有效期:百炼开通后180天内

qwen2-57b-a14b-instruct

65,536

63,488

0.0035

0.007

qwen2-7b-instruct

131,072

128,000

0.001

0.002

qwen2-1.5b-instruct

32,768

30,720

限时免费

qwen2-0.5b-instruct

Qwen1.5

阿里云的通义千问1.5-开源版。使用方法 | API参考 | 在线体验

支持的模型

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen1.5-110b-chat

32,000

30,000

8,000

0.007

0.014

100Token

有效期:百炼开通后180天内

qwen1.5-72b-chat

2,000

0.005

0.01

qwen1.5-32b-chat

0.0035

0.007

qwen1.5-14b-chat

8,000

6,000

0.002

0.004

qwen1.5-7b-chat

0.001

0.002

qwen1.5-1.8b-chat

32,000

30,000

限时免费

qwen1.5-0.5b-chat

QVQ

qvq-72b-preview模型是由 Qwen 团队开发的实验性研究模型,专注于提升视觉推理能力,尤其在数学推理领域。qvq-72b-preview模型的局限性请参见QVQ官方博客使用方法 | API参考

如果希望模型先输出思考过程再输出回答内容,请使用商业版模型QVQ

支持的模型

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qvq-72b-preview

32,768

16,384

单图最大16384

16,384

0.012

0.036

10Token

有效期:百炼开通后180天内

Qwen-Omni

基于Qwen2.5训练的全新多模态理解生成大模型,支持文本、图像、语音、视频输入理解,具备文本和语音同时流式生成的能力,多模态内容理解速度显著提升。使用方法API 参考

支持的模型

模型名称

上下文长度

最大输入

最大输出

免费额度

(注)

(Token数)

qwen2.5-omni-7b

32,768

30,720

2,048

100Token(不区分模态)

有效期:百炼开通后180天内

Qwen-VL

阿里云的通义千问VL开源版,其中,Qwen2.5-VLQwen2-VL的基础上做了如下改进:

  • 感知更丰富的世界:Qwen2.5-VL不仅擅长识别常见物体,如花、鸟、鱼和昆虫等,还能分析图像中的文本、图表、图标、图形和布局等。

  • 长视频理解能力:支持对长视频文件(最长10分钟)进行理解,具备通过精准定位相关视频片段来捕捉事件的新能力

  • 视觉定位:Qwen2.5-VL可通过生成bounding box(矩形框的左上角和右下角坐标)或者point(矩形框的中心点坐标)来准确定位图像中的物体,并能够为坐标和属性提供稳定的JSON输出。

  • 结构化输出:可支持对发票、表单、表格等数据进行结构化输出,惠及金融、商业等领域的应用。

使用方法 | API参考

支持的模型

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen2.5-vl-72b-instruct 

131,072

129,024

单图最大16384

8,192

0.016

0.048

100Token

有效期:百炼开通后180天内

qwen2.5-vl-32b-instruct

0.008

0.024

qwen2.5-vl-7b-instruct

0.002

0.005

qwen2.5-vl-3b-instruct

0.0012

0.0036

qwen2-vl-72b-instruct

32,768

30,720

单图最大16384

2,048

0.016

0.048

qwen2-vl-7b-instruct

32,000

30,000

单图最大16384

2,000

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

10Token

有效期:百炼开通后180天内

qwen2-vl-2b-instruct

限时免费

qwen-vl-v1

8,000

6,000

单图最大1280

1,500

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

qwen-vl-chat-v1

Qwen-Audio

阿里云的通义千问Audio开源版。使用方法

支持的模型

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen2-audio-instruct

相比qwen-audio-chat提升了音频理解能力,且新增了语音聊天能力。

8,000

6,000

1,500

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

10Token

有效期:百炼开通后180天内

qwen-audio-chat

Qwen-Math

基于Qwen模型构建的专门用于数学解题的语言模型。Qwen2.5-Math支持中文英文,并整合了多种推理方法,包括CoT(Chain of Thought)、PoT(Program of Thought)和 TIR(Tool-Integrated Reasoning)。使用方法 | API参考 | 在线体验

支持的模型

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen2.5-math-72b-instruct

4,096

3,072

3,072

0.004

0.012

100Token

有效期:百炼开通后180天内

qwen2.5-math-7b-instruct

0.001

0.002

qwen2.5-math-1.5b-instruct

限时免费

Qwen-Coder

通义千问代码模型开源版。Qwen2.5-Coder相比CodeQwen1.5有了实质性的改进。Qwen2.5-Coder在包含5.5万亿Token的编程相关数据上进行了训练,使即使较小的编程专用模型也能在编程评估基准测试中表现出媲美大型语言模型的竞争力。API参考 | 在线体验

支持的模型

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen2.5-coder-32b-instruct

131,072

129,024

8,192

0.002

0.006

100Token

有效期:百炼开通后180天内

qwen2.5-coder-14b-instruct

qwen2.5-coder-7b-instruct

0.001

0.002

qwen2.5-coder-3b-instruct

32,768

30,720

限时免费体验

qwen2.5-coder-1.5b-instruct

qwen2.5-coder-0.5b-instruct

图像生成-通义万相与图像编辑

文生图

文生图V2

文生图V2系列模型是全面升级的文生图模型,您可以选择V2系列模型进行文生图创作。API参考在线体验

模型名称

说明

单价

免费额度(注)

wanx2.1-t2i-plus

生成图像细节更丰富,速度较慢。对应通义万相官网2.1专业模型。

0.20元/张

500

有效期:百炼开通后180天内

wanx2.1-t2i-turbo

生成速度快、效果全面、性价比高。对应通义万相官网2.1极速模型。

0.14元/张

wanx2.0-t2i-turbo

擅长质感人像,速度中等、成本较低。对应通义万相官网2.0极速模型。

0.04元/张

场景1:文字生成能力

提示词:生成一张新年祝福贺卡,背景有白雪,放鞭炮的小孩,蛇形成文案2025,并写上HAPPY NEW YEAR。

效果对比:wanx2.1模型(plusturbo)的文字生成能力更强,适合创意设计场景。

wanx2.1-t2i-plus

wanx2.1-t2i-turbo

wanx2.0-t2i-turbo

47ebac80ff34442ab070b1f201c59a45_0

image

image

场景2:人像生成能力

提示词中国女孩,圆脸,看着镜头,优雅的民族服装,商业摄影,室外,电影级光照,半身特写,精致的淡妆,锐利的边缘。

效果对比:wanx2.0模型在质感人像生成方面表现出色,其成本仅为wanx2.1 turbo模型的三分之一,性价比高。

wanx2.1-t2i-plus

wanx2.1-t2i-turbo

wanx2.0-t2i-turbo

fca92c863b3b41e6b6569c008e272592_3

image

image

文生图V1

说明

推荐您使用全面升级的文生图V2版模型

可以基于输入的文本生成图片。此外,还支持输入参考图片,并参考图片内容或者图片风格进行图片生成。API参考 | 在线体验

模型名称

示例输入

示例输出

单价

免费额度(注)

wanx-v1

参考图

提示词:一只小狗在笑

小狗在笑

0.16元/张

500

有效期:百炼开通后180天内

通用图像编辑

通义万相-通用图像编辑模型通过简单的指令即可实现多样化的图像编辑,适用于扩图、去水印、风格迁移、图像修复、图像美化等场景。使用方法API参考

模型名称

计费单价

免费额度

wanx2.1-imageedit

0.14元/张

免费额度:500

有效期:百炼开通后180天内

目前通用图像编辑支持以下功能:

模型功能

输入图像

输入提示词

输出图像

全局风格化

image

转换成法国绘本风格

image

局部风格化

image

把房子变成木板风格。

image

指令编辑

image

把女孩的头发修改为红色。

image

局部重绘

输入图像

image

涂抹区域图像(白色为涂抹区域)

image

一只陶瓷兔子抱着一朵陶瓷花。

输出图像

image

去文字水印

image

去除图像中的文字。

image

扩图

20250319105917

一位绿色仙子。

image

图像超分

模糊图像

image

图像超分。

清晰图像

image

图像上色

image

蓝色背景,黄色的叶子。

image

线稿生图

image

北欧极简风格的客厅。

image

垫图

image

卡通形象小心翼翼地探出头,窥视着房间内一颗璀璨的蓝色宝石。

image

涂鸦作画

基于输入的手绘图加文字描述,即可生成精美的涂鸦绘画作品。API参考

模型名称

示例输入

示例输出

单价

免费额度(注)

wanx-sketch-to-image-lite

image

提示词:一棵参天大树

image

0.06元/张

500

有效期:百炼开通后180天内

图像局部重绘

根据用户输入的原始图片和局部涂抹图、prompt提示词文字内容,生成符合语义描述的多样化风格的局部重绘图像。API参考

模型名称

示例输入

示例输出

单价

免费额度(注)

wanx-x-painting

image

布局涂抹图:

image

提示词:一只狗戴着红色眼镜

image

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

500

有效期:百炼开通后180天内

视频生成-通义万相与视频编辑

文生视频

通义万相-文生视频模型通过一句话即可生成视频,视频呈现丰富的艺术风格及影视级画质。API参考在线体验

模型名称

说明

单价

免费额度

wanx2.1-t2v-turbo

生成速度更快,表现均衡。

0.24元/秒

200

有效期:百炼开通后180天内

wanx2.1-t2v-plus

生成细节更丰富,画面更具质感。

0.70元/秒

输入示例

输出视频

输入提示词:一只小猫在月光下奔跑

图生视频-基于首帧

通义万相-图生视频模型将输入图片作为视频首帧,再根据提示词生成视频。视频呈现丰富的艺术风格及影视级画质。API参考在线体验

模型名称

说明

单价

免费额度

wanx2.1-i2v-turbo

生成速度更快,耗时仅为plus模型的三分之一,性价比更高。

0.24元/秒

200

有效期:百炼开通后180天内

wanx2.1-i2v-plus

生成细节更丰富,画面更具质感。

0.70元/秒

输入示例

输出视频

输入提示词:一只猫在草地上奔跑

输入图片:

image

输出视频:将图片作为视频的第一帧,再根据提示词生成视频。

模型:wanx2.1-i2v-turbo。

图生视频-基于首尾帧

通义万相-首尾帧生视频模型,只需要提供首帧和尾帧图片,便能根据提示词生成一段丝滑流畅的动态视频。API参考在线体验

模型名称

单价

免费额度

wanx2.1-kf2v-plus

0.70元/秒

200

有效期:百炼开通后180天内

输入示例

输出视频

首帧图片

尾帧图片

提示词

first_frame

last_frame

写实风格,一只黑色小猫好奇地看向天空,镜头从平视逐渐上升,最后俯拍小猫好奇的眼神。

通用视频编辑

通义万相-视频编辑统一模型支持多模态输入,包括文本、图像和视频,能够执行视频生成与通用编辑任务。API参考

模型名称

单价

免费额度

wanx2.1-vace-plus

0.70元/秒

50

有效期:百炼开通后180天内

目前支持以下功能:

  1. 多图参考

输入参考图

输入提示词

输出视频

参考图1(参考主体)

image

参考图2(参考背景)

image

视频中,一位女孩自晨雾缭绕的古老森林深处款款走出,她步伐轻盈,镜头捕捉她每一个灵动瞬间。当女孩站定,环顾四周葱郁林木时,她脸上绽放出惊喜与喜悦交织的笑容。这一幕,定格在了光影交错的瞬间,记录下女孩与大自然的美妙邂逅。

  1. 视频重绘(基于输入视频的运动轮廓生成视频)

输入视频

输入提示词

输出视频

视频展示了一辆黑色的蒸汽朋克风格汽车,绅士驾驶着,车辆装饰着齿轮和铜管。背景是蒸汽驱动的糖果工厂和复古元素,画面复古与趣味

语音合成(文本转语音)

Qwen-TTS

Qwen-TTS 是通义千问系列的语音合成模型,支持输入中文、英文、中英混合的文本,并流式输出音频。使用方法API 参考

Qwen-TTS 接收文本与音色参数,输出音频。模型具有以下特点:

  • 自然:音色真实自然,在停顿、语气、韵律等方面达到真人水准,并且可以自适应地根据输入文本调整说话语气;

  • 稳定:提供稳定可靠的语音生成,包括中英文长难句;

  • 快速:高速的语音生成,理论首包在400ms以内;

  • 流式:支持音频的流式输出。

音频转换为 Token 的规则:每1秒的音频对应 50个 Token 。若音频时长不足1秒,则按 50个 Token 计算。

支持的模型

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen-tts

当前等同qwen-tts-2025-04-10

稳定版

8,192

512

7,680

0.0016

0.01

100Token

有效期:百炼开通后180天内

qwen-tts-latest

始终等同最新快照版

最新版

qwen-tts-2025-04-10

快照版

CosyVoice

CosyVoice是通义实验室依托大规模预训练语言模型,深度融合文本理解和语音生成的新一代生成式语音合成大模型,支持文本至语音的实时流式合成。API参考 | 在线体验

支持的模型

模型名称

单价

免费额度

cosyvoice-v1

2元/万字符

根据待合成字符数计费(其中1个汉字算2个字符,英文、标点符号、空格均按照1个字符计费)。

每主账号每模型每月2000字符。

可支持的音色请参见CosyVoice音色列表

Sambert

Sambert语音合成API基于达摩院改良的自回归韵律模型,支持文本至语音的实时流式合成。API参考

支持的模型

模型名称

单价

免费额度

见下表

1元/万字符

根据待合成字符数计费(其中1个汉字算2个字符,英文、标点符号、空格均按照1个字符计费)。SSML标签内容不计费。

每主账号每模型每月3万字符。

可支持的音色请参见Sambert音色列表

语音识别(语音转文本)与翻译(语音转成指定语种文本)

Gummy

Gummy大模型支持实时语音识别与翻译,能够精准识别中、英、日、韩等10种语言。此外,它还支持中、英、日、韩之间的互译,以及其他6种语言单向翻译成中文或英文。API参考

支持的模型

模型名称

支持的语言

支持的采样率

适用场景

支持的音频格式

单价

免费额度

gummy-realtime-v1

中文、英文、日语、韩语、粤语、德语、法语、俄语、意大利语、西班牙语

翻译语言对:

中 → 英/日/韩

英 → 中/日/韩

日/韩/粤/德/法/俄/意/西 → 中/英

16kHz及以上

会议演讲、视频直播等长时间不间断识别的场景

pcm、wav、mp3、opus、speex、aac、amr

0.00015元/秒

36,000秒(10小时)

20251170点前开通百炼:有效期至2025715

20251170点后开通百炼:自开通日起180天有效

gummy-chat-v1

16kHz

对话聊天、指令控制、语音输入法、语音搜索等短时语音交互场景

Paraformer

Paraformer基于通义实验室新一代非自回归端到端模型,大幅提高语音识别精度和准确率,目前有多个模型版本,越新的版本(版本号越大越新)效果越好。

Paraformer语音识别服务只识别并转写音频中的语音内容,非语音内容不计费。实际转写时长通常短于原始音频时长。由于采用AI判断,可能存在少许误差。
默认情况下,仅转写并计费多轨音频文件的首轨。若指定转写多个音轨,则各音轨按语音时长单独计费。
关于实际计费时长,请查看返回结果中的content_duration字段。

录音文件识别

API参考 | 在线体验

支持的模型

模型名称

支持的语言

支持的采样率

适用场景

支持的音频格式

单价

免费额度

paraformer-v2

中文普通话、中文方言(粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话、江西话、云南话、上海话)、英语、日语、韩语、德语、法语、俄语

任意

视频直播

aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv

0.00008元/秒

36,000秒(10小时)

每月10点自动发放

有效期1个月

paraformer-8k-v2

中文普通话

8kHz

电话语音

paraformer-v1

中文普通话、英语

任意

音频或视频

paraformer-8k-v1

中文普通话

8kHz

电话语音

paraformer-mtl-v1

中文普通话、中文方言(粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话)、英语、日语、韩语、西班牙语、印尼语、法语、德语、意大利语、马来语

16kHz及以上

音频或视频

实时语音识别

API参考 | 在线体验

支持的模型

模型名称

支持的语言

支持的采样率

适用场景

支持的音频格式

单价

免费额度

paraformer-realtime-v2

中文普通话、中文方言(粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话、江西话、云南话、上海话)、英语、日语、韩语、德语、法语、俄语

支持多个语种自由切换

任意

视频直播、会议等

pcm、wav、mp3、opus、speex、aac、amr

0.00024元/秒

36,000秒(10小时)

每月10点自动发放

有效期1个月

paraformer-realtime-v1

中文

16kHz

paraformer-realtime-8k-v2

8kHz

电话客服等

paraformer-realtime-8k-v1

SenseVoice

录音文件识别

专注于高精度多语言语音识别,还能识别情绪(高兴、悲伤、生气等)和特定事件(背景音乐、歌唱、掌声和笑声等)。API参考

只识别并转写音频中的语音内容,非语音内容不计费。实际转写时长通常短于原始音频时长。由于采用AI判断,可能存在少许误差。
默认情况下,仅转写并计费多轨音频文件的首轨。若指定转写多个音轨,则各音轨按语音时长单独计费。
关于实际计费时长,请查看返回结果中的content_duration_in_milliseconds字段。

支持的模型

模型名称

支持的语言

支持的格式

单价

免费额度

sensevoice-v1

超过50种语言(中、英、日、韩、粤等)

附录:支持语言列表

音频或视频:aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv

0.0007 元/秒

36,000秒(10小时)

每月10点自动发放

有效期1个月