通义大模型是由阿里云自主研发的模型,凭借万亿级大规模数据训练和领先的算法框架,在多个领域和任务中提供智能化服务。通义系列涵盖自然语言、视觉、视频及语音四大方向,包括:通义千问系列、通义万相-图像生成系列、通义万相-视频生成系列、语音合成与识别系列。
应用场景
文字创作与处理:撰写故事、公文、邮件、剧本和诗歌等,对文本进行润色或提取摘要。
图像理解:对图像内容进行描述或定位,识别图像中的文字、公式并支持格式化输出文本。
音频理解:对音频内容进行描述或进行语音对话,并支持直接输出音频文件。
语音识别与合成:为会议、演讲、培训、庭审等提供实时记录,或将文字转换为客服提醒、导航播报等。
图像生成与编辑:一句话生成图像,或对图像进行扩图、去水印、风格迁移、图像修复、美化等。
视频生成与编辑:一句话生成舞蹈、唱演、播报等类型的视频,或者对视频风格进行重绘等。
文本生成-通义千问
通义千问系列模型可理解自然语言及图片、音频、视频等多模态数据。用户可通过一句话概述、复杂任务描述或直接提问多模态内容,模型即可创作出有逻辑、连贯的文本内容。
以下是通义千问模型的商业版。相较于开源版,商业版具有最新的能力和改进。
各模型会不定期更新升级。如需使用固定版本,请选择快照版本。快照版本通常维护至下个快照版本发布时间的后一个月。
QwQ
QwQ是基于Qwen2.5 模型训练的推理模型,通过强化学习大幅度提升了模型的推理能力,模型会先输出思考过程,再输出回答内容。其数学代码等核心指标(AIME 24/25、LiveCodeBench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平。使用方法
您可以通过以下组件体验QwQ的推理过程:
QwQ 不支持关闭思考过程且仅支持流式输出。
支持的模型
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大思维链长度 | 最大回复长度 | 输入成本 | 输出成本 | 免费额度 (注) |
(Token数) | (每千Token) |
qwq-plus 当前等同 qwq-plus-2025-03-05 | 稳定版 | 131,072 | 98,304 | 32,768 | 8,192 | 0.0016元 Batch调用:0.0008元 | 0.004元 Batch调用:0.002元 | 各100万 Token 有效期:百炼开通后180天内 |
qwq-plus-latest 始终等同最新快照版 | 最新版 | 0.0016元 | 0.004元 |
qwq-plus-2025-03-05 又称qwq-plus-0305 | 快照版 |
通义千问-Max、通义千问-Plus 和通义千问-Turbo 均适用于智能客服、文本创作(如撰写文稿、文案创作)、文本润色以及总结摘要等多种场景。但是三者在推理能力与响应速度上有一定的差别。
通义千问-Max
通义千问-Max是通义千问系列效果最好的模型,适合复杂、多步骤的任务。使用方法 | API参考 | 在线体验
支持的模型
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 (注) |
(Token数) | (每千Token) |
qwen-max 当前等同qwen-max-2024-09-19 Batch调用半价 | 稳定版 | 32,768 | 30,720 | 8,192 | 0.0024元 | 0.0096元 | |
qwen-max-latest 始终等同最新快照版 Batch调用半价 | 最新版 | 131,072 | 129,024 |
qwen-max-2025-01-25 又称qwen-max-0125、Qwen2.5-Max | 快照版 |
qwen-max-2024-09-19 又称qwen-max-0919 | 32,768 | 30,720 | 0.02元 | 0.06元 |
qwen-max-2024-04-28 又称qwen-max-0428 | 8,000 | 6,000 | 2,000 | 0.04元 | 0.12元 |
qwen-max-2024-04-03 又称qwen-max-0403 |
通义千问-PLus
通义千问-Plus模型的能力均衡,推理效果、成本和速度介于通义千问-Max和通义千问-Turbo之间,适合中等复杂任务。如果您暂时不确定选择哪个模型,建议优先尝试使用通义千问-Plus。其中 qwen-plus-latest 与 qwen-plus-2025-04-28 同时支持思考模式与非思考模式。使用方法 | API参考 | 在线体验|思考模式
支持的模型
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 (注) |
(Token数) | (每千Token) |
qwen-plus 当前等同qwen-plus-2025-01-25 Batch调用半价 | 稳定版 | 131,072 | 129,024 | 8,192 | 0.0008元 | 0.002元 | |
qwen-plus-latest 始终等同最新快照版 Batch调用半价 | 最新版 | 思考模式 98,304 非思考模式 129,024 | 16,384 思维链最长38,912 | 思考模式 0.016元 非思考模式 0.002元 |
qwen-plus-2025-04-28 又称qwen-plus-0428 属于Qwen3系列 | 快照版 |
qwen-plus-2025-01-25 又称qwen-plus-0125 | 129,024 | 8,192 | 0.002元 |
qwen-plus-2025-01-12 又称qwen-plus-0112 |
qwen-plus-2024-12-20 又称qwen-plus-1220 |
qwen-plus-2024-11-27 又称qwen-plus-1127 |
qwen-plus-2024-11-25 又称qwen-plus-1125 |
qwen-plus-2024-09-19 又称qwen-plus-0919 |
qwen-plus-2024-08-06 又称qwen-plus-0806 | 128,000 | 0.004元 | 0.012元 |
qwen-plus-2024-07-23 又称qwen-plus-0723 | 32,000 | 30,000 | 8,000 |
通义千问-Trubo
通义千问-Trubo模型是通义千问系列速度最快、成本极低的模型,适合简单任务。其中 qwen-turbo-latest 与 qwen-turbo-2025-04-28 同时支持思考模式与非思考模式。使用方法 | API参考 | 在线体验|思考模式
支持的模型
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 (注) |
(Token数) | | (每千Token) |
qwen-turbo 当前等同 qwen-turbo-2025-02-11 Batch调用半价 | 稳定版 | 1,000,000 | 1,000,000 | 8,192 | 0.0003元 | 0.0006元 | 各100万Token 有效期:百炼开通后180天内 |
qwen-turbo-latest 始终等同最新快照版 Batch调用半价 | 最新版 | 思考模式 131,072 非思考模式 1,000,000 | 思考模式 98,304 非思考模式 1,000,000 | 16,384 思维链最长38,912 | 思考模式 0.006元 非思考模式 |
qwen-turbo-2025-04-28 又称qwen-turbo-0428 属于Qwen3系列 | 快照版 |
qwen-turbo-2025-02-11 又称qwen-turbo-0211 | 1,000,000 | 1,000,000 | 8,192 | 0.0006元 |
qwen-turbo-2024-11-01 又称qwen-turbo-1101 | 1000万Token 有效期:百炼开通后180天内 |
qwen-turbo-2024-09-19 又称qwen-turbo-0919 | 131,072 | 129,024 | 各100万Token 有效期:百炼开通后180天内 |
qwen-turbo-2024-06-24 又称qwen-turbo-0624 | 8,000 | 6,000 | 2,000 | 0.002元 | 0.006元 |
最新的qwen-plus-2025-04-28、qwen-plus-latest 、qwen-plus-2025-04-28与 qwen-plus-latest 模型支持思考模式和非思考模式,您可以通过 enable_thinking
参数实现两种模式的切换。除此之外,模型的能力得到了大幅提升:
推理能力:在数学、代码和逻辑推理等评测中,显著超过 QwQ 和同尺寸的非推理模型,达到同规模业界顶尖水平。
人类偏好能力:创意写作、角色扮演、多轮对话、指令遵循能力均大幅提升,通用能力显著超过同尺寸模型。
Agent 能力:在思考、非思考两种模式下都达到业界领先水平,能精准调用外部工具。
多语言能力:支持100多种语言和方言,多语言翻译、指令理解、常识推理能力都明显提升。
回复格式:修复了之前版本存在的回复格式的问题,如异常 Markdown、中间截断、错误输出 boxed 等问题。
对于 qwen-plus-2025-04-28 、 qwen-plus-latest、 qwen-turbo-latest 与 qwen-turbo-2025-04-28 模型,开启思考模式时如果没有输出思考过程,按非思考模式价格进行收费。
通义千问-Long
通义千问-Long模型是通义千问系列上下文窗口最长,能力均衡且成本较低的模型,适合长文本分析、信息抽取、总结摘要和分类打标等任务。使用方法 | 在线体验
支持的模型
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 (注) |
(Token数) | (每千Token) |
qwen-long | 稳定版 | 10,000,000 | 10,000,000 | 8,192 | 0.0005元 Batch调用半价 | 0.002元 Batch调用半价 | 100万Token 有效期:百炼开通后180天内 |
qwen-long-latest 始终等同最新快照版 | 最新版 |
qwen-long-2025-01-25 又称qwen-long-0125 | 快照版 | 0.0005元 | 0.002元 |
通义千问Omni
通义千问全新多模态理解生成大模型,支持文本、图像、语音与视频输入,并输出文本与音频,闭源版模型还提供了4种自然对话音色。使用方法|API 参考
相较于 视觉理解与 音频理解 模型,Qwen-Omni 模型可以:
理解视频文件中的视觉与音频信息;
理解多种模态的数据;
输出音频。
在视觉理解、音频理解等能力上,Qwen-Omni 模型也表现出色。
支持的模型
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 免费额度 (注) |
(Token数) |
qwen-omni-turbo 当前等同qwen-omni-turbo-2025-03-26 | 稳定版 | 32,768 | 30,720 | 2,048 | 各100万Token(不区分模态) 有效期:百炼开通后180天内 |
qwen-omni-turbo-latest 始终等同最新快照版
| 最新版 |
qwen-omni-turbo-2025-03-26 又称qwen-omni-turbo-0326 | 快照版 |
qwen-omni-turbo-2025-01-19 又称qwen-omni-turbo-0119 |
商业版模型的免费额度用完后,输入与输出的计费规则如下:
稳定版模型qwen-omni-turbo支持Batch调用,费用为以下价格的50%。注:Batch调用不支持抵扣免费额度。
输入计费项 | 单价(每千 Token) | 输入:文本 | 0.0004元 | 输入:音频 | 0.025元 | 输入:图片/视频 | 0.0015元 |
| 输出计费项 | 单价(每千 Token) | 输出:文本 | 0.0016元(输入仅包含文本时) 0.0045元(输入包含图片/音频/视频时) | 输出:文本+音频 | 0.05元(音频) 输出的文本不计费。 |
|
计费示例:某次请求输入了1000 Token 的文本和1000 Token 的图片,输出了1000 Token 的文本和1000 Token 的音频,则该请求花费:0.0004元(文本输入)+ 0.0015元(图片输入)+ 0.05元(音频输出)= 0.0519元。在Batch调用模式下,该请求花费按50%计收,为0.02595元。 |
通义千问Omni-Realtime
Qwen-Omni 实时 API 提供了低延迟的多模态交互能力,支持音频的流式输入,并能够流式输出文本和音频。
相比于 Qwen-Omni 模型,Qwen-Omni 实时模型可以:
模型支持的音色包括Chelsie、Serena、Ethan和Cherry。
支持的模型
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 免费额度 (注) |
(Token数) |
qwen-omni-turbo-realtime 当前等同qwen-omni-turbo-2025-05-08 | 稳定版 | 32,768 | 30,720 | 2,048 | 各100万Token(不区分模态) 有效期:百炼开通后180天内 |
qwen-omni-turbo-realtime-latest 始终等同最新快照版
| 最新版 |
qwen-omni-turbo-realtime-2025-05-08 | 快照版 |
免费额度用完后,输入与输出的计费规则如下:
输入计费项 | 单价(每千 Token) | 输入:文本 | 0.0016元 | 输入:音频 | 0.025元 | 输入:图片/视频 | 0.006元 |
| 输出计费项 | 单价(每千 Token) | 输出:文本 | 0.0064元(输入仅包含文本时) 0.018元(输入包含音频时) | 输出:文本+音频 | 0.05元(音频) 输出的文本不计费。 |
|
QVQ
QVQ是视觉推理模型,支持视觉输入及思维链输出,在数学、编程、视觉分析、创作以及通用任务上都表现了更强的能力。使用方法
QVQ模型当前仅支持以流式输出方式调用,并且仅支持增量流式返回,也不支持设置 System Message。
您可以通过以下组件体验QVQ的推理过程:
支持的模型
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大思维链长度 | 最大回复长度 | 输入成本 | 输出成本 | 免费额度 (注) |
(Token数) | (每千Token) |
qvq-max 相比 qvq-plus 具有更强的视觉推理和指令遵循能力,在更多复杂任务中提供最佳性能。 当前等同 qvq-max-2025-03-25 | 稳定版 | 131,072 | 106,496 单图最大16384 | 16,384 | 8,192 | 0.008元 | 0.032元 | 各100万 Token 有效期:百炼开通后180天内 |
qvq-max-latest 始终等同最新快照版 | 最新版 |
qvq-max-2025-05-15 又称qvq-max-0515 | 快照版 |
qvq-max-2025-03-25 又称qvq-max-0325 |
qvq-plus 当前等同 qvq-plus-2025-05-15 | 稳定版 | 0.002元 | 0.005元 |
qvq-plus-latest 始终等同最新快照版 | 最新版 |
qvq-plus-2025-05-15 又称qvq-plus-0515 | 快照版 |
通义千问VL
通义千问VL是具有视觉(图像)理解能力的文本生成模型,不仅能进行总结和推理,例如商品照片从中提取属性,根据习题图进行解题,对视频中的具体事件进行定位并获取时间戳等,还能够定位图像中的物体,进行文档解析。使用方法 | API参考 | 在线体验
通义千问VL模型按输入和输出的总Token数进行计费。
图像Token的计算规则:每28x28像素对应一个Token,一张图最少需要4个Token。详细计算规则请参见视觉理解。
支持的模型
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 (注) |
(Token数) | (每千Token) |
qwen-vl-max 相比qwen-vl-plus再次提升视觉推理和指令遵循能力,在更多复杂任务中提供最佳性能。 当前等同qwen-vl-max-2025-04-08 | 稳定版 | 131,072 | 129,024 单图最大16384 | 8,192 | 0.003元 Batch调用半价 | 0.009元 Batch调用半价 | 各100万Token 有效期:百炼开通后180天内 |
qwen-vl-max-latest 始终等同最新快照版 | 最新版 |
qwen-vl-max-2025-04-08 又称qwen-vl-max-0408 增强数学和推理能力 | 快照版 | 0.003元 | 0.009元 |
qwen-vl-max-2025-04-02 又称qwen-vl-max-0402 显著提高解决复杂数学问题的准确性 |
qwen-vl-max-2025-01-25 又称qwen-vl-max-0125 升级至Qwen2.5-VL系列,扩展上下文至128k,显著增强图像和视频的理解能力 |
qwen-vl-max-2024-12-30 又称qwen-vl-max-1230 | 32,768 | 30,720 单图最大16384 | 2,048 |
qwen-vl-max-2024-11-19 又称qwen-vl-max-1119 |
qwen-vl-max-2024-10-30 又称qwen-vl-max-1030 | 0.02元 |
qwen-vl-max-2024-08-09 又称qwen-vl-max-0809 |
qwen-vl-plus 当前等同qwen-vl-plus-2025-01-25 | 稳定版 | 131,072 | 129,024 单图最大16384 | 8,192 | 0.0015元 Batch调用半价 | 0.0045元 Batch调用半价 |
qwen-vl-plus-latest 始终等同最新快照版 | 最新版 | 0.0015元 | 0.0045元 |
qwen-vl-plus-2025-05-07 又称qwen-vl-plus-0507 显著提升数学、推理、监控视频内容的理解能力 | 快照版 |
qwen-vl-plus-2025-01-25 又称qwen-vl-plus-0125 升级至Qwen2.5-VL系列,扩展上下文至128k,显著增强图像和视频理解能力 |
qwen-vl-plus-2025-01-02 又称qwen-vl-plus-0102 | 32,768 | 30,720 单图最大16384 | 2,048 |
qwen-vl-plus-2024-08-09 又称qwen-vl-plus-0809 |
qwen-vl-plus-2023-12-01 | 8,000 | 6,000 | 2,000 | 0.008元 |
通义千问OCR
通义千问OCR模型是专用于文字提取的模型。相较于通义千问VL模型,它更专注于文档、表格、试题、手写体文字等类型图像的文字提取能力。它能够识别多种语言,包括英语、法语、日语、韩语、德语、俄语和意大利语等。使用方法 | API参考|在线体验
支持的模型
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入输出单价 | 免费额度 (注) |
(Token数) | (每千Token) |
qwen-vl-ocr 当前等同qwen-vl-ocr-2024-10-28 | 稳定版 | 34,096 | 30,000 单图最大30000 | 4,096 | 0.005元 | 各100万Token 有效期:百炼开通后180天内 |
qwen-vl-ocr-latest 始终等同最新快照版 | 最新版 | 38,192 | 8,192 |
qwen-vl-ocr-2025-04-13 又称qwen-vl-ocr-0413 大幅提升文字识别能力,新增六种内置的OCR任务,增加了自定义Prompt、图像旋转矫正等功能。 | 快照版 |
qwen-vl-ocr-2024-10-28 又称qwen-vl-ocr-1028 | 快照版 | 34,096 | 4,096 |
通义千问Audio
通义千问Audio是音频理解模型,支持输入多种音频(人类语音、自然音、音乐、歌声)和文本,并输出文本。该模型不仅能对输入的音频进行转录,还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。使用方法
通义千问Audio模型按输入和输出的总Token数进行计费。
音频转换为Token的规则:每一秒钟的音频对应25个Token。若音频时长不足1秒,则按25个Token计算。
支持的模型
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 (注) |
(Token数) | (每千Token) |
qwen-audio-turbo 当前等同qwen-audio-turbo-2024-08-07
| 稳定版 | 8,000 | 6,000 | 1,500 | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。
| |
qwen-audio-turbo-latest 始终等同最新快照版
| 最新版 | 8,192 | 6,144 | 2,048 |
qwen-audio-turbo-2024-12-04 又称qwen-audio-turbo-1204 大幅提升语音识别准确率,且新增了语音聊天能力。 | 快照版 |
qwen-audio-turbo-2024-08-07 又称qwen-audio-turbo-0807
| 8,000 | 6,000 | 1,500 |
通义千问ASR(Beta版本)
通义千问ASR是基于Qwen-Audio训练,专用于语音识别的模型。目前支持的语言有:中文和英文。使用方法
通义千问Audio与通义千问ASR(Beta版本)的区别
功能对比:
准确率对比:
音频时长对比:
通义千问Audio模型:30秒内。
通义千问ASR模型:3分钟以内。
支持识别的语言对比:
支持的模型
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 (注) |
(Token数) | (每千Token) |
qwen-audio-asr 当前等同qwen-audio-asr-2024-12-04 | 稳定版 | 8,192 | 6,144 | 2,048 | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。
| |
qwen-audio-asr-latest 始终等同最新快照版
| 最新版 |
qwen-audio-asr-2024-12-04 又称qwen-audio-asr-1204 | 快照版 |
通义千问数学模型
通义千问数学模型是专门用于数学解题的语言模型。使用方法 | API参考 | 在线体验
支持的模型
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 (注) |
(Token数) | (每千Token) |
qwen-math-plus 当前等同qwen-math-plus-2024-09-19 | 稳定版 | 4,096 | 3,072 | 3,072 | 0.004元 | 0.012元 | 各100万Token 有效期:百炼开通后180天内 |
qwen-math-plus-latest 始终等同最新快照版 | 最新版 |
qwen-math-plus-2024-09-19 又称qwen-math-plus-0919 | 快照版 |
qwen-math-plus-2024-08-16 又称qwen-math-plus-0816 |
qwen-math-turbo 当前等同qwen-math-turbo-2024-09-19 | 稳定版 | 0.002元 | 0.006元 |
qwen-math-turbo-latest 始终等同最新快照版 | 最新版 |
qwen-math-turbo-2024-09-19 又称qwen-math-turbo-0919 | 快照版 |
通义千问Coder
通义千问代码模型。使用方法 | API参考 | 在线体验
支持的模型
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 (注) |
(Token数) | (每千Token) |
qwen-coder-plus 当前等同qwen-coder-plus-2024-11-06 | 稳定版 | 131,072 | 129,024 | 8,192 | 0.0035元 | 0.007元 | |
qwen-coder-plus-latest 等同qwen-coder-plus最新的快照版本 | 最新版 |
qwen-coder-plus-2024-11-06 又称qwen-coder-plus-1106 | 快照版 |
qwen-coder-turbo 当前等同qwen-coder-turbo-2024-09-19 | 稳定版 | 131,072 | 129,024 | 8,192 | 0.002元 | 0.006元 |
qwen-coder-turbo-latest 等同qwen-coder-turbo最新的快照版本 | 最新版 |
qwen-coder-turbo-2024-09-19 又称qwen-coder-turbo-0919 | 快照版 |
通义千问翻译模型
基于通义千问模型优化的机器翻译大语言模型,擅长中英互译、中文与小语种互译、英文与小语种互译,小语种包括日、韩、法、西、德、葡(巴西)、泰、印尼、越、阿等26种。在多语言互译的基础上,提供术语干预、领域提示、记忆库等能力,提升模型在复杂应用场景下的翻译效果。使用方法
如果您对翻译质量有较高要求,建议选择qwen-mt-plus模型;如果您希望翻译速度更快或成本更低,建议选择qwen-mt-turbo模型。
支持的模型
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 (注) |
(Token数) | (每千Token) (每百万Token) |
qwen-mt-plus | 2,048 | 1,024 | 1,024 | 0.015元 | 0.045元 | |
qwen-mt-turbo | 0.001元 | 0.003元 |
文本生成-通义千问-开源版
Qwen3
Qwen3 模型支持思考模式和非思考模式,您可以通过 enable_thinking
参数实现两种模式的切换。除此之外,Qwen3 模型的能力得到了大幅提升:
推理能力:在数学、代码和逻辑推理等评测中,显著超过 QwQ 和同尺寸的非推理模型,达到同规模业界顶尖水平。
人类偏好能力:创意写作、角色扮演、多轮对话、指令遵循能力均大幅提升,通用能力显著超过同尺寸模型。
Agent 能力:在推理、非推理两种模式下都达到业界领先水平,能精准调用外部工具。
多语言能力:支持100多种语言和方言,多语言翻译、指令理解、常识推理能力都明显提升。
回复格式:修复了之前版本存在的回复格式的问题,如异常 Markdown、中间截断、错误输出 boxed 等问题。
Qwen3 开源模型在思考模式下不支持非流式输出方式。
思考模式 | 非思考模式 | API 参考
支持的模型
模型名称 | 模式 | 上下文长度 | 最大输入 | 最大思维链长度 | 最大回复长度 | 输入成本 | 输出成本 | 免费额度 (注) |
(Token数) | (每千Token) |
qwen3-235b-a22b | 非思考 | 131,072 | 129,024 | - | 16,384 | 0.002元 | 0.008元 | 各100万 Token 有效期:百炼开通后180天内 |
思考 | 98,304 | 38,912 | 0.02元 |
qwen3-32b | 非思考 | 129,024 | - | 0.002元 | 0.008元 |
思考 | 98,304 | 38,912 | 0.02元 |
qwen3-30b-a3b | 非思考 | 129,024 | - | 0.00075元 | 0.003元 |
思考 | 98,304 | 38,912 | 0.0075元 |
qwen3-14b | 非思考 | 129,024 | - | 8,192 | 0.001元 | 0.004元 |
思考 | 98,304 | 38,912 | 0.01元 |
qwen3-8b | 非思考 | 129,024 | - | 0.0005元 | 0.002元 |
思考 | 98,304 | 38,912 | 0.005元 |
qwen3-4b | 非思考 | 129,024 | - | 0.0003元 | 0.0012元 |
思考 | 98,304 | 38,912 | 0.003元 |
qwen3-1.7b | 非思考 | 32,768 | 30,720 | - | 0.0012元 |
思考 | 28,672 | 与输入相加不超过30,720 | 0.003元 |
qwen3-0.6b | 非思考 | 30,720 | - | 0.0012元 |
思考 | 28,672 | 与输入相加不超过30,720 | 0.003元 |
对于 Qwen3 模型,开启思考模式时如果没有输出思考过程,按非思考模式价格进行收费。
QwQ-开源版
基于 Qwen2.5-32B 模型训练的 QwQ 推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、LiveCodeBench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平,各指标均显著超过同样基于 Qwen2.5-32B 的 DeepSeek-R1-Distill-Qwen-32B。使用方法
支持的模型
模型名称 | 上下文长度 | 最大输入 | 最大思维链长度 | 最大回复长度 | 输入成本 | 输出成本 | 免费额度 (注) |
(Token数) | (每千Token) |
qwq-32b | 131,072 | 98,304 | 32,768 | 8,192 | 0.002元 | 0.006元 | 100万 Token 有效期:百炼开通后180天内 |
QwQ-Preview
qwq-32b-preview 模型是由 Qwen 团队于2024年开发的实验性研究模型,专注于增强 AI 推理能力,尤其是数学和编程领域。qwq-32b-preview 模型的局限性请参见QwQ官方博客。使用方法 | API参考|在线体验
支持的模型
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 (注) |
(Token数) | (每千Token) |
qwq-32b-preview | 32,768 | 30,720 | 16,384 | 0.002元 Batch调用半价 | 0.006元 Batch调用半价 | 100万Token 有效期:百炼开通后180天内 |
Qwen2.5
Qwen2.5是Qwen大型语言模型系列。针对Qwen2.5,我们发布了一系列基础语言模型和指令调优语言模型,参数规模从5亿到720亿不等。Qwen2.5在Qwen2基础上进行了以下改进:
在我们最新的大规模数据集上进行预训练,包含多达18万亿个Token。
由于我们在这些领域的专业专家模型,模型的知识显著增多,编码和数学能力也大幅提高。
在遵循指令、生成长文本(超过8K个标记)、理解结构化数据(例如表格)和生成结构化输出(尤其是JSON)方面有显著改进。对系统提示的多样性更具弹性,增强了聊天机器人的角色扮演实现和条件设置。
支持超过29种语言,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。
使用方法 | API参考 | 在线体验
支持的模型
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 (注) |
(Token数) | (每千Token) |
qwen2.5-14b-instruct-1m | 1,000,000 | 1,000,000 | 8,192 | 0.001元 | 0.003元 | 各100万Token 有效期:百炼开通后180天内 |
qwen2.5-7b-instruct-1m | 0.0005元 | 0.001元 |
qwen2.5-72b-instruct | 131,072 | 129,024 | 0.004元 | 0.012元 |
qwen2.5-32b-instruct | 0.002元 | 0.006元 |
qwen2.5-14b-instruct | 0.001元 | 0.003元 |
qwen2.5-7b-instruct | 0.0005元 | 0.001元 |
qwen2.5-3b-instruct | 32,768 | 30,720 | 0.0003元 | 0.0009元 |
qwen2.5-1.5b-instruct | 限时免费 |
qwen2.5-0.5b-instruct |
Qwen2
阿里云的通义千问2-开源版。使用方法 | API参考 | 在线体验
支持的模型
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 (注) |
(Token数) | (每千Token) |
qwen2-72b-instruct | 131,072 | 128,000 | 6,144 | 0.004元 | 0.012元 | 各100万Token 有效期:百炼开通后180天内 |
qwen2-57b-a14b-instruct | 65,536 | 63,488 | 0.0035元 | 0.007元 |
qwen2-7b-instruct | 131,072 | 128,000 | 0.001元 | 0.002元 |
qwen2-1.5b-instruct | 32,768 | 30,720 | 限时免费 |
qwen2-0.5b-instruct |
Qwen1.5
阿里云的通义千问1.5-开源版。使用方法 | API参考 | 在线体验
支持的模型
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 (注) |
(Token数) | (每千Token) |
qwen1.5-110b-chat | 32,000 | 30,000 | 8,000 | 0.007元 | 0.014元 | 各100万Token 有效期:百炼开通后180天内 |
qwen1.5-72b-chat | 2,000 | 0.005元 | 0.01元 |
qwen1.5-32b-chat | 0.0035元 | 0.007元 |
qwen1.5-14b-chat | 8,000 | 6,000 | 0.002元 | 0.004元 |
qwen1.5-7b-chat | 0.001元 | 0.002元 |
qwen1.5-1.8b-chat | 32,000 | 30,000 | 限时免费 |
qwen1.5-0.5b-chat |
QVQ
qvq-72b-preview模型是由 Qwen 团队开发的实验性研究模型,专注于提升视觉推理能力,尤其在数学推理领域。qvq-72b-preview模型的局限性请参见QVQ官方博客。使用方法 | API参考
如果希望模型先输出思考过程再输出回答内容,请使用商业版模型QVQ。
支持的模型
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 (注) |
(Token数) | (每千Token) |
qvq-72b-preview | 32,768 | 16,384 单图最大16384 | 16,384 | 0.012元 | 0.036元 | 10万Token 有效期:百炼开通后180天内 |
Qwen-Omni
基于Qwen2.5训练的全新多模态理解生成大模型,支持文本、图像、语音、视频输入理解,具备文本和语音同时流式生成的能力,多模态内容理解速度显著提升。使用方法|API 参考
支持的模型
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 免费额度 (注) |
(Token数) |
qwen2.5-omni-7b | 32,768 | 30,720 | 2,048 | 100万Token(不区分模态) 有效期:百炼开通后180天内 |
Qwen-VL
阿里云的通义千问VL开源版,其中,Qwen2.5-VL在Qwen2-VL的基础上做了如下改进:
感知更丰富的世界:Qwen2.5-VL不仅擅长识别常见物体,如花、鸟、鱼和昆虫等,还能分析图像中的文本、图表、图标、图形和布局等。
长视频理解能力:支持对长视频文件(最长10分钟)进行理解,具备通过精准定位相关视频片段来捕捉事件的新能力
视觉定位:Qwen2.5-VL可通过生成bounding box(矩形框的左上角和右下角坐标)或者point(矩形框的中心点坐标)来准确定位图像中的物体,并能够为坐标和属性提供稳定的JSON输出。
结构化输出:可支持对发票、表单、表格等数据进行结构化输出,惠及金融、商业等领域的应用。
使用方法 | API参考
支持的模型
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 (注) |
(Token数) | (每千Token) |
qwen2.5-vl-72b-instruct | 131,072 | 129,024 单图最大16384 | 8,192 | 0.016元 | 0.048元 | 各100万Token 有效期:百炼开通后180天内 |
qwen2.5-vl-32b-instruct | 0.008元 | 0.024元 |
qwen2.5-vl-7b-instruct | 0.002元 | 0.005元 |
qwen2.5-vl-3b-instruct | 0.0012元 | 0.0036元 |
qwen2-vl-72b-instruct | 32,768 | 30,720 单图最大16384 | 2,048 | 0.016元 | 0.048元 |
qwen2-vl-7b-instruct | 32,000 | 30,000 单图最大16384 | 2,000 | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。
| 各10万Token 有效期:百炼开通后180天内 |
qwen2-vl-2b-instruct | 限时免费 |
qwen-vl-v1 | 8,000 | 6,000 单图最大1280 | 1,500 | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。
|
qwen-vl-chat-v1 |
Qwen-Audio
阿里云的通义千问Audio开源版。使用方法
支持的模型
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 (注) |
(Token数) | (每千Token) |
qwen2-audio-instruct 相比qwen-audio-chat提升了音频理解能力,且新增了语音聊天能力。 | 8,000 | 6,000 | 1,500 | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。
| 各10万Token 有效期:百炼开通后180天内 |
qwen-audio-chat |
Qwen-Math
基于Qwen模型构建的专门用于数学解题的语言模型。Qwen2.5-Math支持中文和英文,并整合了多种推理方法,包括CoT(Chain of Thought)、PoT(Program of Thought)和 TIR(Tool-Integrated Reasoning)。使用方法 | API参考 | 在线体验
支持的模型
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 (注) |
(Token数) | (每千Token) |
qwen2.5-math-72b-instruct | 4,096 | 3,072 | 3,072 | 0.004元 | 0.012元 | 各100万Token 有效期:百炼开通后180天内 |
qwen2.5-math-7b-instruct | 0.001元 | 0.002元 |
qwen2.5-math-1.5b-instruct | 限时免费 |
Qwen-Coder
通义千问代码模型开源版。Qwen2.5-Coder相比CodeQwen1.5有了实质性的改进。Qwen2.5-Coder在包含5.5万亿Token的编程相关数据上进行了训练,使即使较小的编程专用模型也能在编程评估基准测试中表现出媲美大型语言模型的竞争力。API参考 | 在线体验
支持的模型
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 (注) |
(Token数) | (每千Token) |
qwen2.5-coder-32b-instruct | 131,072 | 129,024 | 8,192 | 0.002元 | 0.006元 | 各100万Token 有效期:百炼开通后180天内 |
qwen2.5-coder-14b-instruct |
qwen2.5-coder-7b-instruct | 0.001元 | 0.002元 |
qwen2.5-coder-3b-instruct | 32,768 | 30,720 | 限时免费体验 |
qwen2.5-coder-1.5b-instruct |
qwen2.5-coder-0.5b-instruct |
图像生成-通义万相与图像编辑
文生图
文生图V2版
文生图V2系列模型是全面升级的文生图模型,您可以选择V2系列模型进行文生图创作。API参考|在线体验
模型名称 | 说明 | 单价 | 免费额度(注) |
wanx2.1-t2i-plus | 生成图像细节更丰富,速度较慢。对应通义万相官网2.1专业模型。 | 0.20元/张 | 各500张 有效期:百炼开通后180天内 |
wanx2.1-t2i-turbo | 生成速度快、效果全面、性价比高。对应通义万相官网2.1极速模型。 | 0.14元/张 |
wanx2.0-t2i-turbo | 擅长质感人像,速度中等、成本较低。对应通义万相官网2.0极速模型。 | 0.04元/张 |
场景1:文字生成能力 提示词:生成一张新年祝福贺卡,背景有白雪,放鞭炮的小孩,蛇形成文案2025,并写上HAPPY NEW YEAR。 效果对比:wanx2.1模型(plus和turbo)的文字生成能力更强,适合创意设计场景。 |
wanx2.1-t2i-plus | wanx2.1-t2i-turbo | wanx2.0-t2i-turbo |

| 
| 
|
场景2:人像生成能力 提示词:中国女孩,圆脸,看着镜头,优雅的民族服装,商业摄影,室外,电影级光照,半身特写,精致的淡妆,锐利的边缘。 效果对比:wanx2.0模型在质感人像生成方面表现出色,其成本仅为wanx2.1 turbo模型的三分之一,性价比高。 |
wanx2.1-t2i-plus | wanx2.1-t2i-turbo | wanx2.0-t2i-turbo |

| 
| 
|
文生图V1版
可以基于输入的文本生成图片。此外,还支持输入参考图片,并参考图片内容或者图片风格进行图片生成。API参考 | 在线体验
模型名称 | 示例输入 | 示例输出 | 单价 | 免费额度(注) |
wanx-v1 | 
提示词:一只小狗在笑 | 
| 0.16元/张 | 500张 有效期:百炼开通后180天内 |
通用图像编辑
通义万相-通用图像编辑模型通过简单的指令即可实现多样化的图像编辑,适用于扩图、去水印、风格迁移、图像修复、图像美化等场景。使用方法 | API参考
模型名称 | 计费单价 | 免费额度 |
wanx2.1-imageedit | 0.14元/张 | 免费额度:500张 有效期:百炼开通后180天内 |
目前通用图像编辑支持以下功能:
模型功能 | 输入图像 | 输入提示词 | 输出图像 |
全局风格化 | 
| 转换成法国绘本风格 | 
|
局部风格化 | 
| 把房子变成木板风格。 | 
|
指令编辑 | 
| 把女孩的头发修改为红色。 | 
|
局部重绘 | 输入图像 
涂抹区域图像(白色为涂抹区域) 
| 一只陶瓷兔子抱着一朵陶瓷花。 | 输出图像 
|
去文字水印 | 
| 去除图像中的文字。 | 
|
扩图 | 
| 一位绿色仙子。 | 
|
图像超分 | 模糊图像 
| 图像超分。 | 清晰图像 
|
图像上色 | 
| 蓝色背景,黄色的叶子。 | 
|
线稿生图 | 
| 北欧极简风格的客厅。 | 
|
垫图 | 
| 卡通形象小心翼翼地探出头,窥视着房间内一颗璀璨的蓝色宝石。 | 
|
涂鸦作画
基于输入的手绘图加文字描述,即可生成精美的涂鸦绘画作品。API参考
模型名称 | 示例输入 | 示例输出 | 单价 | 免费额度(注) |
wanx-sketch-to-image-lite | 
提示词:一棵参天大树 | 
| 0.06元/张 | 500张 有效期:百炼开通后180天内 |
图像局部重绘
根据用户输入的原始图片和局部涂抹图、prompt提示词文字内容,生成符合语义描述的多样化风格的局部重绘图像。API参考
模型名称 | 示例输入 | 示例输出 | 单价 | 免费额度(注) |
wanx-x-painting | 
布局涂抹图: 
提示词:一只狗戴着红色眼镜 | 
| 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。
| 500张 有效期:百炼开通后180天内 |
视频生成-通义万相与视频编辑
文生视频
通义万相-文生视频模型通过一句话即可生成视频,视频呈现丰富的艺术风格及影视级画质。API参考|在线体验
模型名称 | 说明 | 单价 | 免费额度 |
wanx2.1-t2v-turbo | 生成速度更快,表现均衡。 | 0.24元/秒 | 各200秒 有效期:百炼开通后180天内 |
wanx2.1-t2v-plus | 生成细节更丰富,画面更具质感。 | 0.70元/秒 |
图生视频-基于首帧
通义万相-图生视频模型将输入图片作为视频首帧,再根据提示词生成视频。视频呈现丰富的艺术风格及影视级画质。API参考|在线体验
模型名称 | 说明 | 单价 | 免费额度 |
wanx2.1-i2v-turbo | 生成速度更快,耗时仅为plus模型的三分之一,性价比更高。 | 0.24元/秒 | 各200秒 有效期:百炼开通后180天内 |
wanx2.1-i2v-plus | 生成细节更丰富,画面更具质感。 | 0.70元/秒 |
输入示例 | 输出视频 |
输入提示词:一只猫在草地上奔跑 输入图片: 
| 输出视频:将图片作为视频的第一帧,再根据提示词生成视频。 模型:wanx2.1-i2v-turbo。 |
图生视频-基于首尾帧
通义万相-首尾帧生视频模型,只需要提供首帧和尾帧图片,便能根据提示词生成一段丝滑流畅的动态视频。API参考|在线体验
模型名称 | 单价 | 免费额度 |
wanx2.1-kf2v-plus | 0.70元/秒 | 200秒 有效期:百炼开通后180天内 |
输入示例 | 输出视频 |
首帧图片 | 尾帧图片 | 提示词 |

| 
| 写实风格,一只黑色小猫好奇地看向天空,镜头从平视逐渐上升,最后俯拍小猫好奇的眼神。 | |
通用视频编辑
通义万相-视频编辑统一模型支持多模态输入,包括文本、图像和视频,能够执行视频生成与通用编辑任务。API参考
模型名称 | 单价 | 免费额度 |
wanx2.1-vace-plus | 0.70元/秒 | 50秒 有效期:百炼开通后180天内 |
目前支持以下功能:
多图参考
输入参考图 | 输入提示词 | 输出视频 |
参考图1(参考主体) 
参考图2(参考背景) 
| 视频中,一位女孩自晨雾缭绕的古老森林深处款款走出,她步伐轻盈,镜头捕捉她每一个灵动瞬间。当女孩站定,环顾四周葱郁林木时,她脸上绽放出惊喜与喜悦交织的笑容。这一幕,定格在了光影交错的瞬间,记录下女孩与大自然的美妙邂逅。 | |
视频重绘(基于输入视频的运动轮廓生成视频)
输入视频 | 输入提示词 | 输出视频 |
| 视频展示了一辆黑色的蒸汽朋克风格汽车,绅士驾驶着,车辆装饰着齿轮和铜管。背景是蒸汽驱动的糖果工厂和复古元素,画面复古与趣味 | |
语音合成(文本转语音)
Qwen-TTS
Qwen-TTS 是通义千问系列的语音合成模型,支持输入中文、英文、中英混合的文本,并流式输出音频。使用方法|API 参考
Qwen-TTS 接收文本与音色参数,输出音频。模型具有以下特点:
音频转换为 Token 的规则:每1秒的音频对应 50个 Token 。若音频时长不足1秒,则按 50个 Token 计算。
支持的模型
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 (注) |
(Token数) | (每千Token) |
qwen-tts 当前等同qwen-tts-2025-04-10 | 稳定版 | 8,192 | 512 | 7,680 | 0.0016元 | 0.01元 | |
qwen-tts-latest 始终等同最新快照版
| 最新版 |
qwen-tts-2025-04-10 | 快照版 |
CosyVoice
CosyVoice是通义实验室依托大规模预训练语言模型,深度融合文本理解和语音生成的新一代生成式语音合成大模型,支持文本至语音的实时流式合成。API参考 | 在线体验
支持的模型
模型名称 | 单价 | 免费额度 |
cosyvoice-v1 | 2元/万字符 根据待合成字符数计费(其中1个汉字算2个字符,英文、标点符号、空格均按照1个字符计费)。 | 每主账号每模型每月2000字符。 |
可支持的音色请参见CosyVoice音色列表。
Sambert
Sambert语音合成API基于达摩院改良的自回归韵律模型,支持文本至语音的实时流式合成。API参考
支持的模型
模型名称 | 单价 | 免费额度 |
见下表 | 1元/万字符 根据待合成字符数计费(其中1个汉字算2个字符,英文、标点符号、空格均按照1个字符计费)。SSML标签内容不计费。 | 每主账号每模型每月3万字符。 |
可支持的音色请参见Sambert音色列表。
语音识别(语音转文本)与翻译(语音转成指定语种文本)
Gummy
Gummy大模型支持实时语音识别与翻译,能够精准识别中、英、日、韩等10种语言。此外,它还支持中、英、日、韩之间的互译,以及其他6种语言单向翻译成中文或英文。API参考
支持的模型
模型名称 | 支持的语言 | 支持的采样率 | 适用场景 | 支持的音频格式 | 单价 | 免费额度 |
gummy-realtime-v1 | 中文、英文、日语、韩语、粤语、德语、法语、俄语、意大利语、西班牙语 翻译语言对: 中 → 英/日/韩 英 → 中/日/韩 日/韩/粤/德/法/俄/意/西 → 中/英 | 16kHz及以上 | 会议演讲、视频直播等长时间不间断识别的场景 | pcm、wav、mp3、opus、speex、aac、amr | 0.00015元/秒 | 36,000秒(10小时) 2025年1月17日0点前开通百炼:有效期至2025年7月15日 2025年1月17日0点后开通百炼:自开通日起180天有效 |
gummy-chat-v1 | 16kHz | 对话聊天、指令控制、语音输入法、语音搜索等短时语音交互场景 |
Paraformer
Paraformer基于通义实验室新一代非自回归端到端模型,大幅提高语音识别精度和准确率,目前有多个模型版本,越新的版本(版本号越大越新)效果越好。
Paraformer语音识别服务只识别并转写音频中的语音内容,非语音内容不计费。实际转写时长通常短于原始音频时长。由于采用AI判断,可能存在少许误差。
默认情况下,仅转写并计费多轨音频文件的首轨。若指定转写多个音轨,则各音轨按语音时长单独计费。
关于实际计费时长,请查看返回结果中的content_duration字段。
录音文件识别
API参考 | 在线体验
支持的模型
模型名称 | 支持的语言 | 支持的采样率 | 适用场景 | 支持的音频格式 | 单价 | 免费额度 |
paraformer-v2 | 中文普通话、中文方言(粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话、江西话、云南话、上海话)、英语、日语、韩语、德语、法语、俄语 | 任意 | 视频直播 | aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv | 0.00008元/秒 | 36,000秒(10小时) 每月1日0点自动发放 有效期1个月 |
paraformer-8k-v2 | 中文普通话 | 8kHz | 电话语音 |
paraformer-v1 | 中文普通话、英语 | 任意 | 音频或视频 |
paraformer-8k-v1 | 中文普通话 | 8kHz | 电话语音 |
paraformer-mtl-v1 | 中文普通话、中文方言(粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话)、英语、日语、韩语、西班牙语、印尼语、法语、德语、意大利语、马来语 | 16kHz及以上 | 音频或视频 |
实时语音识别
API参考 | 在线体验
支持的模型
模型名称 | 支持的语言 | 支持的采样率 | 适用场景 | 支持的音频格式 | 单价 | 免费额度 |
paraformer-realtime-v2 | 中文普通话、中文方言(粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话、江西话、云南话、上海话)、英语、日语、韩语、德语、法语、俄语 支持多个语种自由切换 | 任意 | 视频直播、会议等 | pcm、wav、mp3、opus、speex、aac、amr | 0.00024元/秒 | 36,000秒(10小时) 每月1日0点自动发放 有效期1个月 |
paraformer-realtime-v1 | 中文 | 16kHz |
paraformer-realtime-8k-v2 | 8kHz | 电话客服等 |
paraformer-realtime-8k-v1 |
SenseVoice
录音文件识别
专注于高精度多语言语音识别,还能识别情绪(高兴、悲伤、生气等)和特定事件(背景音乐、歌唱、掌声和笑声等)。API参考
只识别并转写音频中的语音内容,非语音内容不计费。实际转写时长通常短于原始音频时长。由于采用AI判断,可能存在少许误差。
默认情况下,仅转写并计费多轨音频文件的首轨。若指定转写多个音轨,则各音轨按语音时长单独计费。
关于实际计费时长,请查看返回结果中的content_duration_in_milliseconds字段。
支持的模型
模型名称 | 支持的语言 | 支持的格式 | 单价 | 免费额度 |
sensevoice-v1 | 超过50种语言(中、英、日、韩、粤等) 附录:支持语言列表 | 音频或视频:aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv | 0.0007 元/秒 | 36,000秒(10小时) 每月1日0点自动发放 有效期1个月 |