阿里云百炼提供了丰富多样的模型选择,它集成了通义系列大模型和第三方大模型,涵盖文本、图像、音视频等不同模态。
旗舰模型
旗舰模型 |
适合复杂任务,能力最强 |
效果、速度、成本均衡 |
适合简单任务,速度快、成本极低 |
卓越的代码模型,擅长工具调用和环境交互 |
最大上下文长度 (Token数) | 131,072 | 1,000,000 | 1,000,000 | 1,000,000 |
最低输入价格 (每千Token) | 0.0024元 | 0.0008元 | 0.00015元 | 0.001元 |
最低输出价格 (每千Token) | 0.0096元 | 0.002元 | 0.0015元 | 0.004元 |
关于详细参数以及更多大模型,请查看下方的表格。
模型总览
类别 | 模型 | 说明 |
文本生成 | ||
图像生成 |
| |
可生成图像或编辑图像,适用于生成证件照、电商主图、模特图、各种风格人像图(动漫、国风、二次元等),也可用于抠图、生成背景、更改图片元素等。 | ||
语音合成与识别 | Qwen-TTS-Realtime、Qwen-TTS、CosyVoice和Sambert可实现文本转语音,适用于智能语音客服、有声读物、车载导航、教育辅导等场景。 | |
FunASR、Gummy、Paraformer和SenseVoice可实现语音转文本,适用于实时会议记录、实时直播字幕、电话客服等场景。此外,Gummy还支持语音翻译。 | ||
视频编辑与生成 |
| |
| ||
| ||
向量 | 将文本转换成一组可以代表文字的数字,用于搜索、聚类、推荐、分类等。 | |
将文本、图像、语音转换成一组数字,用于音视频分类、图像分类、图文检索等。 | ||
行业 | 适用于法律咨询、案例分析和法规解读等。 | |
意图理解模型能够在毫秒级时间内解析用户意图,并选择合适工具来解决用户问题。 |
文本生成-通义千问
以下为通义千问商业版模型。相比开源版,商业版具有更新的能力和优化。
商业版暂不透出参数规模。
若有高并发需求,建议优先使用稳定版或最新版,限流条件更宽松。
稳定版模型会不定期更新升级。若需使用固定版本,请选择快照版本。
通义千问Max
通义千问系列效果最好的模型,适合复杂、多步骤的任务。使用方法 | API参考 | 在线体验
通义千问Max 模型暂不支持深度思考。
公共云
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||||
qwen-max 当前与qwen-max-2024-09-19能力相同 Batch调用半价 | 稳定版 | 32,768 | 30,720 | 8,192 | 0.0024元 | 0.0096元 | 各100万Token 有效期:百炼开通后180天内 |
qwen-max-latest 始终与最新快照版能力相同 Batch调用半价 | 最新版 | 131,072 | 129,024 | ||||
qwen-max-2025-01-25 又称qwen-max-0125、Qwen2.5-Max | 快照版 | ||||||
qwen-max-2024-09-19 又称qwen-max-0919 | 32,768 | 30,720 | 0.02元 | 0.06元 |
最新的qwen-max-0125模型:通义千问系列效果最好的模型,代码编写与理解能力、逻辑能力、多语言能力显著提升,回复风格面向人类偏好进行大幅调整,模型回复详实程度和格式清晰度明显改善,内容创作、JSON格式遵循、角色扮演能力定向提升。
金融云
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||||
qwen-max | 稳定版 | 8,000 | 6,000 | 2,000 | 0.038元 Batch调用:0.019元 | 0.114元 Batch调用:0.057元 | 100万Token 有效期:百炼开通后180天内 |
通义千问Plus
能力均衡,推理效果、成本和速度介于通义千问Max和通义千问Flash之间,适合中等复杂任务。
公共云
模型名称 | 版本 | 模式 | 上下文长度 | 最大输入 | 最长思维链 | 最大输出 | 输入成本 | 输出成本 思维链+输出 | 免费额度 |
(Token数) | (每千Token) | ||||||||
qwen-plus 当前与qwen-plus-2025-04-28能力相同 属于Qwen3系列 Batch调用半价 | 稳定版 | 思考 | 131,072 | 98,304 | 38,912 | 16,384 | 0.0008元 | 0.008元 | 各100万Token 有效期:百炼开通后180天内 |
非思考 | 129,024 | - | 0.002元 | ||||||
qwen-plus-latest 始终与最新快照版能力相同 属于Qwen3系列 Batch调用半价 | 最新版 | 思考 | 1,000,000 | 995,904 默认129,024,可通过max_input_tokens调整 | 81,920 | 32,768 | 阶梯计价,请参见表格下方说明。 | ||
非思考 | 997,952 默认129,024,可通过max_input_tokens调整 | - | |||||||
qwen-plus-2025-07-28 又称qwen-plus-0728 属于Qwen3系列 | 快照版 | 思考 | 995,904 | 81,920 | |||||
非思考 | 997,952 | - | |||||||
qwen-plus-2025-07-14 又称qwen-plus-0714 属于Qwen3系列 | 思考 | 131,072 | 98,304 | 38,912 | 16,384 | 0.0008元 | 0.008元 | ||
非思考 | 129,024 | - | 0.002元 | ||||||
qwen-plus-2025-04-28 又称qwen-plus-0428 属于Qwen3系列 | 思考 | 98,304 | 38,912 | 0.008元 | |||||
非思考 | 129,024 | - | 0.002元 |
qwen-plus-latest和qwen-plus-2025-07-28 根据本次请求输入的 Token数,采取阶梯计费。
输入Token数 | 输入价格(每千Token) | 模式 | 输出价格(每千Token) |
0-128K | 0.0008元 | 非思考模式 | 0.002元 |
思考模式 | 0.008元 | ||
128K-256K | 0.0024元 | 非思考模式 | 0.02元 |
思考模式 | 0.024元 | ||
256K-1M | 0.0048元 | 非思考模式 | 0.048元 |
思考模式 | 0.064元 |
上述模型支持思考模式和非思考模式,您可以通过 enable_thinking
参数实现两种模式的切换。除此之外,模型的能力得到了大幅提升:
推理能力:在数学、代码和逻辑推理等评测中,显著超过 QwQ 和同尺寸的非推理模型,达到同规模业界顶尖水平。
人类偏好能力:创意写作、角色扮演、多轮对话、指令遵循能力均大幅提升,通用能力显著超过同尺寸模型。
Agent 能力:在思考、非思考两种模式下都达到业界领先水平,能精准调用外部工具。
多语言能力:支持100多种语言和方言,多语言翻译、指令理解、常识推理能力都明显提升。
回复格式:修复了之前版本存在的回复格式的问题,如异常 Markdown、中间截断、错误输出 boxed 等问题。
对于上述模型,开启思考模式时如果没有输出思考过程,按非思考模式价格进行收费。
金融云
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||||
qwen-plus | 稳定版 | 131,072 | 128,000 | 8,192 | 0.00152元 Batch调用:0.00076元 | 0.0038元 Batch调用:0.0019元 | 100万Token 有效期:百炼开通后180天内 |
通义千问Flash
通义千问系列速度最快、成本极低的模型,适合简单任务。通义千问Flash采用灵活的阶梯定价,相比通义千问Turbo计费更合理。使用方法 | API参考 | 在线体验 | 思考模式
模型名称 | 版本 | 模式 | 上下文长度 | 最大输入 | 最长思维链 | 最大输出 | 输入成本 | 输出成本 思维链+输出 | 免费额度 |
(Token数) | (每千Token) | ||||||||
qwen-flash 当前与 qwen-flash-2025-07-28能力相同 属于Qwen3系列 Batch调用半价 | 稳定版 | 思考 | 1,000,000 | 995,904 | 81,920 | 32,768 | 阶梯计价,请参见表格下方说明。 | 各100万Token 有效期:百炼开通后180天内 | |
非思考 | 997,952 | - | |||||||
qwen-flash-2025-07-28 属于Qwen3系列 | 快照版 | 思考 | 995,904 | 81,920 | |||||
非思考 | 997,952 | - |
以上模型根据本次请求输入的 Token数采取阶梯计费,其中qwen-flash支持缓存和 Batch调用。
上下文长度 | 输入价格(每千Token) | 输出价格(每千Token) |
0-128K | 0.00015元 | 0.0015元 |
128K-256K | 0.0006元 | 0.006元 |
256K-1M | 0.0012元 | 0.012元 |
上述模型均支持思考模式和非思考模式,可通过 enable_thinking
参数实现两种模式的切换。
通义千问Turbo
通义千问Turbo 后续不再更新,建议替换为通义千问Flash。通义千问Flash采用灵活的阶梯定价,计费更合理。使用方法 | API参考 | 在线体验|思考模式
模型名称 | 版本 | 模式 | 上下文长度 | 最大输入 | 最长思维链 | 最大输出 | 输入成本 | 输出成本 思维链+输出 | 免费额度 |
(Token数) | (每千Token) | ||||||||
qwen-turbo 当前与 qwen-turbo-2025-04-28能力相同 属于Qwen3系列 Batch调用半价 | 稳定版 | 思考 | 131,072 | 98,304 | 38,912 | 16,384 | 0.0003元 | 0.003元 | 各100万Token 有效期:百炼开通后180天内 |
qwen-turbo-latest 始终与最新快照版能力相同 属于Qwen3系列 Batch调用半价 | 最新版 | 非思考 | 1,000,000 | 1,000,000 | - | 0.0006元 | |||
qwen-turbo-2025-07-15 又称qwen-turbo-0715 属于Qwen3系列 | 快照版 | 思考 | 131,072 | 98,304 | 38,912 | 0.003元 | |||
qwen-turbo-2025-04-28 又称qwen-turbo-0428 属于Qwen3系列 | 非思考 | 1,000,000 | 1,000,000 | - | 0.0006元 |
上述模型均支持思考模式和非思考模式,可通过 enable_thinking
参数实现两种模式的切换。除此之外,模型的能力得到了大幅提升:
推理能力:在数学、代码和逻辑推理等评测中,显著超过 QwQ 和同尺寸的非推理模型,达到同规模业界顶尖水平。
人类偏好能力:创意写作、角色扮演、多轮对话、指令遵循能力均大幅提升,通用能力显著超过同尺寸模型。
Agent 能力:在思考、非思考模式下都达到业界领先水平,能精准调用外部工具。
多语言能力:支持100多种语言和方言,多语言翻译、指令理解、常识推理能力都明显提升。
回复格式:修复了之前版本存在的回复格式的问题,如异常 Markdown、中间截断、错误输出 boxed 等问题。
对于上述模型,开启思考模式时如果没有输出思考过程,按非思考模式价格进行收费。
QwQ
基于 Qwen2.5 模型训练的 QwQ 推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、LiveCodeBench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平。使用方法
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大思维链长度 | 最大回复长度 | 输入成本 | 输出成本 思维链+输出 | 免费额度 |
(Token数) | (每千Token) | |||||||
qwq-plus 当前与qwq-plus-2025-03-05能力相同 Batch调用半价 | 稳定版 | 131,072 | 98,304 | 32,768 | 8,192 | 0.0016元 | 0.004元 | 各100万 Token 有效期:百炼开通后180天内 |
qwq-plus-latest 始终与最新快照版能力相同 | 最新版 | 0.0016元 | 0.004元 | |||||
qwq-plus-2025-03-05 又称qwq-plus-0305 | 快照版 |
通义千问Long
通义千问系列上下文窗口最长,能力均衡且成本较低的模型,适合长文本分析、信息抽取、总结摘要和分类打标等任务。使用方法 | 在线体验
公共云
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||||
qwen-long | 稳定版 | 10,000,000 | 10,000,000 | 8,192 | 0.0005元 Batch调用半价 | 0.002元 Batch调用半价 | 各100万Token 有效期:百炼开通后180天内 |
qwen-long-latest 始终与最新快照版能力相同 | 最新版 | ||||||
qwen-long-2025-01-25 又称qwen-long-0125 | 快照版 | 0.0005元 | 0.002元 |
金融云
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||
qwen-long | 10,000,000 | 10,000,000 | 8,192 | 0.0005元 Batch调用:0.00025元 | 0.002元 Batch调用:0.001元 | 各100万Token 有效期:百炼开通后180天内 |
通义千问Omni
通义千问全新多模态理解生成大模型,支持文本、图像、语音与视频输入,并输出文本与音频,提供了4种自然对话音色。使用方法|API 参考
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 免费额度 |
(Token数) | |||||
qwen-omni-turbo 当前与qwen-omni-turbo-2025-03-26能力相同 | 稳定版 | 32,768 | 30,720 | 2,048 | 各100万Token(不区分模态) 有效期:百炼开通后180天内 |
qwen-omni-turbo-latest 始终与最新快照版 能力相同 | 最新版 | ||||
qwen-omni-turbo-2025-03-26 又称qwen-omni-turbo-0326 | 快照版 | ||||
qwen-omni-turbo-2025-01-19 又称qwen-omni-turbo-0119 |
免费额度用完后,输入与输出的计费规则如下:
稳定版模型qwen-omni-turbo支持Batch调用,费用为以下价格的50%。注:Batch调用不支持抵扣免费额度。
|
| ||||||||||||||
计费示例:某次请求输入了1000 Token 的文本和1000 Token 的图片,输出了1000 Token 的文本和1000 Token 的音频,则该请求花费:0.0004元(文本输入)+ 0.0015元(图片输入)+ 0.05元(音频输出)= 0.0519元。在Batch调用模式下,该请求花费按50%计收,为0.02595元。 |
通义千问Omni-Realtime
相比于通义千问Omni,支持音频的流式输入,且内置 VAD(Voice Activity Detection,语音活动检测)功能,可自动检测用户语音的开始和结束。使用方法|客户端事件|服务端事件|在线体验
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 免费额度 |
(Token数) | |||||
qwen-omni-turbo-realtime 当前与qwen-omni-turbo-2025-05-08能力相同 | 稳定版 | 32,768 | 30,720 | 2,048 | 各100万Token(不区分模态) 有效期:百炼开通后180天内 |
qwen-omni-turbo-realtime-latest 始终与最新快照版能力相同 | 最新版 | ||||
qwen-omni-turbo-realtime-2025-05-08 | 快照版 |
免费额度用完后,输入与输出的计费规则如下:
|
|
QVQ
QVQ是视觉推理模型,支持视觉输入及思维链输出,在数学、编程、视觉分析、创作以及通用任务上都表现了更强的能力。使用方法|在线体验
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大思维链长度 | 最大回复长度 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||||
qvq-max 相比 qvq-plus 具有更强的视觉推理和指令遵循能力,在更多复杂任务中提供最佳性能。 当前与qvq-max-2025-03-25能力相同 | 稳定版 | 131,072 | 106,496 单图最大16384 | 16,384 | 8,192 | 0.008元 | 0.032元 | 各100万 Token 有效期:百炼开通后180天内 |
qvq-max-latest 始终与最新快照版能力相同 | 最新版 | |||||||
qvq-max-2025-05-15 又称qvq-max-0515 | 快照版 | |||||||
qvq-max-2025-03-25 又称qvq-max-0325 | ||||||||
qvq-plus 当前与qvq-plus-2025-05-15能力相同 | 稳定版 | 0.002元 | 0.005元 | |||||
qvq-plus-latest 始终与最新快照版能力相同 | 最新版 | |||||||
qvq-plus-2025-05-15 又称qvq-plus-0515 | 快照版 |
通义千问VL
通义千问VL是具有视觉(图像)理解能力的文本生成模型,有通义千问VL-MAX和通义千问VL-PLUS两种系列。不仅能进行OCR(图片文字识别),还能进一步总结和推理,例如从商品照片中提取属性,根据习题图进行解题等。使用方法 | API参考 | 在线体验
通义千问VL模型按输入和输出的总Token数进行计费。图像Token的计算规则:每28x28像素对应一个Token,一张图最少需要4个Token。详细计算规则请参见视觉理解。
通义千问VL-Max系列
通义千问VL系列能力最强的模型。
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||||
qwen-vl-max 相比qwen-vl-plus再次提升视觉推理和指令遵循能力,在更多复杂任务中提供最佳性能。 当前与qwen-vl-max-2025-04-08能力相同 | 稳定版 | 131,072 | 129,024 单图最大16384 | 8,192 | 0.003元 Batch调用半价 | 0.009元 Batch调用半价 | 各100万Token 有效期:百炼开通后180天内 |
qwen-vl-max-latest 始终与最新快照版能力相同 | 最新版 | 0.0016元 Batch调用半价 | 0.004元 Batch调用半价 | ||||
qwen-vl-max-2025-08-13 又称qwen-vl-max-0813 视觉理解指标全面提升,数学、推理、物体识别、多语言处理能力显著增强。 | 快照版 | 0.0016元 | 0.004元 | ||||
qwen-vl-max-2025-04-08 又称qwen-vl-max-0408 增强数学和推理能力 | 0.003元 | 0.009元 | |||||
qwen-vl-max-2025-04-02 又称qwen-vl-max-0402 显著提高解决复杂数学问题的准确性 | |||||||
qwen-vl-max-2025-01-25 又称qwen-vl-max-0125 升级至Qwen2.5-VL系列,扩展上下文至128k,显著增强图像和视频的理解能力 |
通义千问VL-Plus系列
通义千问VL-Plus模型在效果、成本上比较均衡。
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||||
qwen-vl-plus 当前与qwen-vl-plus-2025-05-07能力相同 | 稳定版 | 131,072 | 129,024 单图最大16384 | 8,192 | 0.0015元 Batch调用半价 | 0.0045元 Batch调用半价 | 各100万Token 有效期:百炼开通后180天内 |
qwen-vl-plus-latest 始终与最新快照版能力相同 | 最新版 | 0.0008元 Batch调用半价 | 0.002元 Batch调用半价 | ||||
qwen-vl-plus-2025-08-15 又称qwen-vl-plus-0815 在物体识别与定位、多语言处理的能力上有显著提升 | 快照版 | 0.0008元 | 0.002元 | ||||
qwen-vl-plus-2025-07-10 又称qwen-vl-plus-0710 进一步提升监控视频内容的理解能力 | 32,768 | 30,720 单图最大16384 | 0.00015元 | 0.0015元 | |||
qwen-vl-plus-2025-05-07 又称qwen-vl-plus-0507 显著提升数学、推理、监控视频内容的理解能力 | 131,072 | 129,024 单图最大16384 | 0.0015元 | 0.0045元 | |||
qwen-vl-plus-2025-01-25 又称qwen-vl-plus-0125 升级至Qwen2.5-VL系列,扩展上下文至128k,显著增强图像和视频理解能力 |
通义千问OCR
通义千问OCR模型是专用于文字提取的模型。相较于通义千问VL模型,它更专注于文档、表格、试题、手写体文字等类型图像的文字提取能力。它能够识别多种语言,包括英语、法语、日语、韩语、德语、俄语和意大利语等。使用方法 | API参考|在线体验
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入输出单价 | 免费额度 |
(Token数) | (每千Token) | |||||
qwen-vl-ocr 当前与qwen-vl-ocr-2025-04-13能力相同 | 稳定版 | 34,096 | 30,000 单图最大30000 | 4,096 | 0.005元 Batch 调用半价 | 各100万Token 有效期:百炼开通后180天内 |
qwen-vl-ocr-latest 始终与最新快照版能力相同 | 最新版 | 0.005元 | ||||
qwen-vl-ocr-2025-04-13 又称qwen-vl-ocr-0413 大幅提升文字识别能力,新增六种内置的OCR任务,增加了自定义Prompt、图像旋转矫正等功能。 | 快照版 | |||||
qwen-vl-ocr-2024-10-28 又称qwen-vl-ocr-1028 | 快照版 |
qwen-vl-ocr、qwen-vl-ocr-latest、qwen-vl-ocr-2025-04-13模型的max_tokens
参数(最大输出长度)默认为 4096,如需提高该参数值(4097~8192范围),请发送邮件至 modelstudio@service.aliyun.com 进行申请,并提供以下信息:主账号ID、图像类型(如文档图、电商图、合同等)、模型名称、预计 QPS 和每日请求总数,以及模型输出长度超过4096的请求占比。
通义千问Audio
通义千问Audio是音频理解模型,支持输入多种音频(人类语音、自然音、音乐、歌声)和文本,并输出文本。该模型不仅能对输入的音频进行转录,还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。使用方法
通义千问Audio模型按输入和输出的总Token数进行计费。
音频转换为Token的规则:每一秒钟的音频对应25个Token。若音频时长不足1秒,则按25个Token计算。
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||||
qwen-audio-turbo 当前等同qwen-audio-turbo-2024-08-07 | 稳定版 | 8,000 | 6,000 | 1,500 | 目前仅供免费体验。 免费额度用完后不可调用,推荐使用Qwen-Omni作为替代模型 | 10万Token 有效期:阿里云百炼开通后180天内 | |
qwen-audio-turbo-latest 始终等同最新快照版 | 最新版 | 8,192 | 6,144 | 2,048 | |||
qwen-audio-turbo-2024-12-04 又称qwen-audio-turbo-1204 较上个快照版本大幅提升语音识别准确率,且新增了语音聊天能力。 | 快照版 | ||||||
qwen-audio-turbo-2024-08-07 又称qwen-audio-turbo-0807 | 8,000 | 6,000 | 1,500 |
通义千问ASR(Beta版本)
通义千问ASR是基于Qwen-Audio训练,专用于语音识别的模型。目前支持的语言有:中文和英文。使用方法
模型名称 | 版本 | 支持的语言 | 支持的格式 | 支持的采样率 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||||||
qwen-audio-asr 当前等同qwen-audio-asr-2024-12-04 | 稳定版 | 中文、英文 | 音频 | 16kHz | 8,192 | 6,144 | 2,048 | 目前仅供免费体验。 免费额度用完后不可调用,推荐使用 Paraformer、SenseVoice 作为替代模型。 | 10万Token 有效期:阿里云百炼开通后180天内 | |
qwen-audio-asr-latest 始终等同最新快照版 | 最新版 | |||||||||
qwen-audio-asr-2024-12-04 | 快照版 |
通义千问数学模型
通义千问数学模型是专门用于数学解题的语言模型。使用方法 | API参考 | 在线体验
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||||
qwen-math-plus 当前与qwen-math-plus-2024-09-19能力相同 | 稳定版 | 4,096 | 3,072 | 3,072 | 0.004元 | 0.012元 | 各100万Token 有效期:百炼开通后180天内 |
qwen-math-plus-latest 始终与最新快照版能力相同 | 最新版 | ||||||
qwen-math-plus-2024-09-19 又称qwen-math-plus-0919 | 快照版 | ||||||
qwen-math-plus-2024-08-16 又称qwen-math-plus-0816 | |||||||
qwen-math-turbo 当前与qwen-math-turbo-2024-09-19能力相同 | 稳定版 | 0.002元 | 0.006元 | ||||
qwen-math-turbo-latest 始终与最新快照版能力相同 | 最新版 | ||||||
qwen-math-turbo-2024-09-19 又称qwen-math-turbo-0919 | 快照版 |
通义千问Coder
通义千问代码模型。最新的 Qwen3-Coder-Plus 系列模型是基于 Qwen3 的代码生成模型,具有强大的Coding Agent能力,擅长工具调用和环境交互,能够实现自主编程,代码能力卓越的同时兼具通用能力。使用方法 | API参考 | 在线体验
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||||
qwen3-coder-plus 当前与qwen3-coder-plus-2025-07-22能力相同 | 稳定版 | 1,000,000 | 997,952 | 65,536 | 阶梯计价,请参见表格下方说明。 | 各100万Token 有效期:百炼开通后180天内 | |
qwen3-coder-plus-2025-07-22 | 快照版 | ||||||
qwen3-coder-flash 当前与qwen3-coder-flash-2025-07-28能力相同 | 稳定版 | ||||||
qwen3-coder-flash-2025-07-28 | 快照版 |
上述模型根据本次请求输入的Token数,采取阶梯计费。
qwen3-coder-plus系列
qwen3-coder-plus 和 qwen3-coder-plus-2025-07-22 价格如下,其中 qwen3-coder-plus 支持上下文缓存:
输入Token数 | 输入成本(每千Token) | 输出成本(每千Token) |
0-32K | 0.004元 | 0.016元 |
32K-128K | 0.006元 | 0.024元 |
128K-256K | 0.01元 | 0.04元 |
256K-1M | 0.02元 | 0.2元 |
qwen3-coder-flash系列
qwen3-coder-flash 和 qwen3-coder-flash-2025-07-28 价格如下,其中 qwen3-coder-flash 支持上下文缓存:
输入Token数 | 输入价格(每千Token) | 输出价格(每千Token) |
0-32K | 0.001元 | 0.004元 |
32K-128K | 0.0015元 | 0.006元 |
128K-256K | 0.0025元 | 0.01元 |
256K-1M | 0.005元 | 0.025元 |
通义千问翻译模型
基于 Qwen 3全面升级的旗舰级翻译大模型,支持92个语种(包括中、英、日、韩、法、西、德、泰、印尼、越、阿等)互译,模型性能和翻译效果全面升级,提供更稳定的术语定制、格式还原度、领域提示能力,让译文更精准、自然。使用方法 | 在线体验
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 |
(Token数) | (每千Token) | ||||
qwen-mt-plus 属于Qwen3-MT | 4,096 | 2,048 | 2,048 | 0.0018 | 0.0054 |
qwen-mt-turbo 属于Qwen3-MT | 0.0007 | 0.00195 |
通义千问数据挖掘模型
通义千问数据挖掘模型可以提取文档中的结构化信息并用于数据标注和内容审核等领域。使用方法 | API参考
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||
qwen-doc-turbo | 262,144 | 253,952 | 8,192 | 0.0006元 | 0.001元 | 无免费额度 |
通义千问深入研究模型
通义千问深入研究模型可以拆解复杂问题,结合互联网搜索进行推理分析并生成研究报告。使用方法 | API参考
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||
qwen-deep-research | 1,000,000 | 997,952 | 32,768 | 0.054元 | 0.163元 | 无免费额度 |
文本生成-通义千问-开源版
模型名称中,xxb表示参数规模,例如qwen2-72b-instruct表示参数规模为72B,即720亿。
百炼支持调用通义千问的开源版,您无需本地部署模型。对于开源版,建议使用Qwen3模型。
Qwen3
2025 年 7月发布的 qwen3-235b-a22b-thinking-2507、qwen3-30b-a3b-thinking-2507 模型仅支持思考模式,是qwen3-235b-a22b(思考模式)与qwen3-30b-a3b (思考模式)的升级版。
2025 年 7月发布的 qwen3-235b-a22b-instruct-2507、qwen3-30b-a3b-instruct-2507 模型仅支持非思考模式,是qwen3-235b-a22b(非思考模式)与qwen3-30b-a3b (非思考模式)的升级版。
2025 年 4月发布的 Qwen3 模型支持思考模式和非思考模式,您可以通过 enable_thinking
参数实现两种模式的切换。除此之外,Qwen3 模型的能力得到了大幅提升:
推理能力:在数学、代码和逻辑推理等评测中,显著超过 QwQ 和同尺寸的非推理模型,达到同规模业界顶尖水平。
人类偏好能力:创意写作、角色扮演、多轮对话、指令遵循能力均大幅提升,通用能力显著超过同尺寸模型。
Agent 能力:在推理、非推理两种模式下都达到业界领先水平,能精准调用外部工具。
多语言能力:支持100多种语言和方言,多语言翻译、指令理解、常识推理能力都明显提升。
回复格式:修复了之前版本存在的回复格式的问题,如异常 Markdown、中间截断、错误输出 boxed 等问题。
2025 年 4月发布的Qwen3 开源模型在思考模式下不支持非流式输出方式。
模型名称 | 模式 | 上下文长度 | 最大输入 | 最大思维链长度 | 最大回复长度 | 输入成本 | 输出成本 思维链+输出 | 免费额度 |
(Token数) | (每千Token) | |||||||
qwen3-235b-a22b-thinking-2507 | 仅思考模式 | 131,072 | 126,976 | 81,920 | 32,768 | 0.002元 | 0.02元 | 各100万 Token 有效期:百炼开通后180天内 |
qwen3-235b-a22b-instruct-2507 | 仅非思考模式 | 129,024 | - | 0.008元 | ||||
qwen3-30b-a3b-thinking-2507 | 仅思考模式 | 126,976 | 81,920 | 0.00075元 | 0.0075元 | |||
qwen3-30b-a3b-instruct-2507 | 仅非思考模式 | 129,024 | - | 0.003元 | ||||
qwen3-235b-a22b 本模型与以下模型均于2025 年 4月发布 | 非思考 | 129,024 | - | 16,384 | 0.002元 | 0.008元 | ||
思考 | 98,304 | 38,912 | 0.02元 | |||||
qwen3-32b | 非思考 | 129,024 | - | 0.002元 | 0.008元 | |||
思考 | 98,304 | 38,912 | 0.02元 | |||||
qwen3-30b-a3b | 非思考 | 129,024 | - | 0.00075元 | 0.003元 | |||
思考 | 98,304 | 38,912 | 0.0075元 | |||||
qwen3-14b | 非思考 | 129,024 | - | 8,192 | 0.001元 | 0.004元 | ||
思考 | 98,304 | 38,912 | 0.01元 | |||||
qwen3-8b | 非思考 | 129,024 | - | 0.0005元 | 0.002元 | |||
思考 | 98,304 | 38,912 | 0.005元 | |||||
qwen3-4b | 非思考 | 129,024 | - | 0.0003元 | 0.0012元 | |||
思考 | 98,304 | 38,912 | 0.003元 | |||||
qwen3-1.7b | 非思考 | 32,768 | 30,720 | - | 0.0012元 | |||
思考 | 28,672 | 与输入相加不超过30,720 | 0.003元 | |||||
qwen3-0.6b | 非思考 | 30,720 | - | 0.0012元 | ||||
思考 | 28,672 | 与输入相加不超过30,720 | 0.003元 |
对于 Qwen3 模型,开启思考模式时如果没有输出思考过程,按非思考模式价格进行收费。
QwQ-开源版
基于 Qwen2.5-32B 模型训练的 QwQ 推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、LiveCodeBench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平,各指标均显著超过同样基于 Qwen2.5-32B 的 DeepSeek-R1-Distill-Qwen-32B。使用方法|API 参考
模型名称 | 上下文长度 | 最大输入 | 最大思维链长度 | 最大回复长度 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||||
qwq-32b | 131,072 | 98,304 | 32,768 | 8,192 | 0.002元 | 0.006元 | 100万 Token 有效期:百炼开通后180天内 |
QwQ-Preview
qwq-32b-preview 模型是由 Qwen 团队于2024年开发的实验性研究模型,专注于增强 AI 推理能力,尤其是数学和编程领域。qwq-32b-preview 模型的局限性请参见QwQ官方博客。使用方法 | API参考|在线体验
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||
qwq-32b-preview | 32,768 | 30,720 | 16,384 | 0.002元 Batch调用半价 | 0.006元 Batch调用半价 | 100万Token 有效期:百炼开通后180天内 |
Qwen2.5
Qwen2
Qwen1.5
QVQ
qvq-72b-preview模型是由 Qwen 团队开发的实验性研究模型,专注于提升视觉推理能力,尤其在数学推理领域。qvq-72b-preview模型的局限性请参见QVQ官方博客。使用方法 | API参考
如果希望模型先输出思考过程再输出回答内容,请使用商业版模型QVQ。
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||
qvq-72b-preview | 32,768 | 16,384 单图最大16384 | 16,384 | 0.012元 | 0.036元 | 10万Token 有效期:百炼开通后180天内 |
Qwen-Omni
基于Qwen2.5训练的全新多模态理解生成大模型,支持文本、图像、语音、视频输入理解,具备文本和语音同时流式生成的能力,多模态内容理解速度显著提升。使用方法|API 参考
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 免费额度 |
(Token数) | ||||
qwen2.5-omni-7b | 32,768 | 30,720 | 2,048 | 100万Token(不区分模态) 有效期:百炼开通后180天 |
免费额度用完后,输入与输出的计费规则如下:
|
| ||||||||||||||
计费示例:某次请求输入了1000 Token 的文本和1000 Token 的图片,输出了1000 Token 的文本和1000 Token 的音频,则该请求花费:0.0006元(文本输入)+ 0.002元(图片输入)+ 0.076元(音频输出)= 0.0786元。 |
Qwen-VL
其中,Qwen2.5-VL在Qwen2-VL的基础上做了如下改进:
感知更丰富的世界:Qwen2.5-VL不仅擅长识别常见物体,如花、鸟、鱼和昆虫等,还能分析图像中的文本、图表、图标、图形和布局等。
长视频理解能力:支持对长视频文件(最长10分钟)进行理解,具备通过精准定位相关视频片段来捕捉事件的新能力
视觉定位:Qwen2.5-VL可通过生成bounding box(矩形框的左上角和右下角坐标)或者point(矩形框的中心点坐标)来准确定位图像中的物体,并能够为坐标和属性提供稳定的JSON输出。
结构化输出:可支持对发票、表单、表格等数据进行结构化输出,惠及金融、商业等领域的应用。
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||
qwen2.5-vl-72b-instruct | 131,072 | 129,024 单图最大16384 | 8,192 | 0.016元 | 0.048元 | 各100万Token 有效期:百炼开通后180天内 |
qwen2.5-vl-32b-instruct | 0.008元 | 0.024元 | ||||
qwen2.5-vl-7b-instruct | 0.002元 | 0.005元 | ||||
qwen2.5-vl-3b-instruct | 0.0012元 | 0.0036元 | ||||
qwen2-vl-72b-instruct | 32,768 | 30,720 单图最大16384 | 2,048 | 0.016元 | 0.048元 | |
qwen2-vl-7b-instruct | 32,000 | 30,000 单图最大16384 | 2,000 | 目前仅供免费体验。 免费额度用完后不可调用,建议改用qwen-vl-max、qwen-vl-plus模型。 | 各10万Token 有效期:百炼开通后180天内 | |
qwen2-vl-2b-instruct | 限时免费 | |||||
qwen-vl-v1 | 8,000 | 6,000 单图最大1280 | 1,500 | 目前仅供免费体验。 免费额度用完后不可调用,建议改用qwen-vl-max、qwen-vl-plus模型。 | ||
qwen-vl-chat-v1 |
Qwen-Audio
阿里云的通义千问Audio开源版。使用方法
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||
qwen2-audio-instruct 相比qwen-audio-chat提升了音频理解能力,且新增了语音聊天能力。 | 8,000 | 6,000 | 1,500 | 目前仅供免费体验。 免费额度用完后不可调用,推荐使用Qwen-Omni作为替代模型 | 10万Token 有效期:阿里云百炼开通后180天内 | |
qwen-audio-chat |
Qwen-Math
基于Qwen模型构建的专门用于数学解题的语言模型。Qwen2.5-Math支持中文和英文,并整合了多种推理方法,包括CoT(Chain of Thought)、PoT(Program of Thought)和 TIR(Tool-Integrated Reasoning)。使用方法 | API参考 | 在线体验
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||
qwen2.5-math-72b-instruct | 4,096 | 3,072 | 3,072 | 0.004元 | 0.012元 | 各100万Token 有效期:百炼开通后180天内 |
qwen2.5-math-7b-instruct | 0.001元 | 0.002元 | ||||
qwen2.5-math-1.5b-instruct | 限时免费 |
Qwen-Coder
通义千问代码模型开源版。最新的 qwen3-coder-480b-a35b-instruct 是基于 Qwen3 的代码生成模型,具有强大的Coding Agent能力,擅长工具调用和环境交互,能够实现自主编程、代码能力卓越的同时兼具通用能力。使用方法 | API参考 | 在线体验
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||
qwen3-coder-480b-a35b-instruct | 262,144 | 204,800 | 65,536 | 阶梯计价,请参见表格下方说明。 | 各100万Token 有效期:百炼开通后180天内 | |
qwen3-coder-30b-a3b-instruct | ||||||
qwen2.5-coder-32b-instruct | 131,072 | 129,024 | 8,192 | 0.002元 | 0.006元 | |
qwen2.5-coder-14b-instruct | ||||||
qwen2.5-coder-7b-instruct | 0.001元 | 0.002元 | ||||
qwen2.5-coder-3b-instruct | 32,768 | 30,720 | 限时免费体验 | |||
qwen2.5-coder-1.5b-instruct | ||||||
qwen2.5-coder-0.5b-instruct |
qwen3-coder-480b-a35b-instruct 与 qwen3-coder-30b-a3b-instruct 根据本次请求输入的 Token数,采取阶梯计费。
模型名称 | 输入 Token 数 | 输入成本(每千Token) | 输出成本(每千Token) |
qwen3-coder-480b-a35b-instruct | 0-32K | 0.006元 | 0.024元 |
32K-128K | 0.009元 | 0.036元 | |
128K-200K | 0.015元 | 0.06元 | |
qwen3-coder-30b-a3b-instruct | 0-32K | 0.0015元 | 0.006元 |
32K-128K | 0.00225元 | 0.009元 | |
128K-200K | 0.0075元 | 0.0375元 |
文本生成-第三方模型
DeepSeek
DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力,尤其在数学、代码、自然语言推理等任务上;DeepSeek-V3 为 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练,在长文本、代码、数学、百科、中文能力上表现优秀。API参考|在线体验
模型名称 | 上下文长度 | 最大输入 | 最大思维链长度 | 最大回复长度 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||||
deepseek-v3.1 685B 满血版模型,2025年8月20日发布 | 131,072 | 98,304 | 32,768 | 65,536 | 0.004元 | 0.012元 | 各100万Token 有效期:百炼开通后180天内 |
deepseek-r1 685B 满血版模型,当前能力等同于deepseek-r1-0528 | 16,384 | 0.004元 Batch调用:0.002元 | 0.016元 Batch调用:0.008元 | ||||
deepseek-r1-0528 685B 满血版模型,2025年5月28日发布 | 0.004元 | 0.016元 | |||||
deepseek-v3 参数量为 671B,2024年12月26日发布 | 65,536 | 57,344 | 不涉及 | 8,192 | 0.002元 Batch调用:0.001元 | 0.008元 Batch调用:0.004元 | |
deepseek-r1-distill-qwen-1.5b 基于 Qwen2.5-Math-1.5B | 32,768 | 32,768 | 16,384 | 16,384 | 限时免费体验 | ||
deepseek-r1-distill-qwen-7b 基于 Qwen2.5-Math-7B | 0.0005元 | 0.001元 | 各100万Token 有效期:百炼开通后180天内 | ||||
deepseek-r1-distill-qwen-14b 基于 Qwen2.5-14B | 0.001元 | 0.003元 | |||||
deepseek-r1-distill-qwen-32b 基于 Qwen2.5-32B | 0.002元 | 0.006元 | |||||
deepseek-r1-distill-llama-8b 基于 Llama-3.1-8B | 限时免费体验 | ||||||
deepseek-r1-distill-llama-70b 基于 Llama-3.3-70B | 目前仅供免费体验 免费额度用完后不可调用,推荐使用Qwen3、deepseek-v3.1、Kimi作为替代模型 | 各100万Token 有效期:百炼开通后180天内 |
Kimi
Kimi-K2 是月之暗面提供的国内首个开源万亿参数MoE模型,激活参数达 320 亿,具有卓越的编码和工具调用能力。使用方法|在线体验
模型名称 | 上下文长度 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||
Moonshot-Kimi-K2-Instruct | 131,072 | 0.004元 | 0.016元 | 100万Token 有效期:百炼开通后180天内 |
GLM-4.5
GLM-4.5系列模型是智谱AI专为智能体设计的混合推理模型,提供思考与非思考两种模式。
模型名称 | 上下文长度 | 最大输入 | 最大思维链长度 | 最大回复长度 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||||
glm-4.5 | 131,072 | 98,304 | 32,768 | 16,384 | 阶梯计费,请参见下方表格 | 各100万Token 有效期:百炼开通后180天内 | |
glm-4.5-air |
以上模型根据请求输入的 Token数,采取阶梯计费。
模型名称 | 输入 Token 数 | 输入成本(每千Token) | 输出成本(每千Token) |
glm-4.5 | 0-32K | 0.003元 | 0.014元 |
32K-96K | 0.004元 | 0.016元 | |
glm-4.5-air | 0-32K | 0.0008元 | 0.006元 |
32K-96K | 0.0012元 | 0.008元 |
以上模型非集成第三方服务,均部署在阿里云百炼服务器上。
Llama-文本和图像输入
Meta推出的多模态模型,支持输入文本和图像。
Llama 4
Llama 4模型利用了专家混合架构,提供业界领先的文本和图像理解性能。其中 Llama 4 Scout 是拥有170亿参数和16个专家的模型,Llama 4 Maverick是拥有170亿参数和128个专家的模型。API参考
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||
llama-4-scout-17b-16e-instruct | 1,000,000 | 991,808 | 8,192 | 目前仅供免费体验。 免费额度用完后不可调用,推荐使用 视觉理解作为替代模型 | 各100万Token 有效期:百炼开通后90天内 | |
llama-4-maverick-17b-128e-instruct | 430,000 | 421,808 |
百川
百川智能推出的大语言模型。API参考 | 在线体验(需申请)
模型名称 | 上下文长度 | 最大输入 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||
baichuan2-turbo | 32,000 | 32,000 | 目前仅供免费体验。 免费额度用完后不可调用,推荐使用 Qwen3、、Kimi 等作为替代模型 | 100万Token(需申请) 有效期:申请通过后180天内 |
MiniMax
MiniMax推出的大语言模型。API参考 | 在线体验(需申请)
模型名称 | 说明 | 上下文长度 | 最大输入 | 输入输出成本 | 免费额度 |
(Token数) | |||||
abab6.5g-chat | 适合英文场景 | 8,000 | 8,000 | 目前仅供免费体验。 免费额度用完后不可调用,推荐使用Qwen3、、Kimi 等作为替代模型 | 各100万Token(需申请) 有效期:申请通过后180天内 |
abab6.5t-chat | 适合中文场景 | ||||
abab6.5s-chat | 适合超长文本场景 | 245,000 | 245,000 |
图像生成
通义千问文生图
通义千问文生图模型在文本渲染方面表现突出,特别是中文文本渲染。API参考
模型名称 | 计费单价 | 免费额度 |
qwen-image | 0.25元/张 | 免费额度:100张 有效期:阿里云百炼开通后180天内 |
输入提示词 | 输出图像 |
一副典雅庄重的对联悬挂于厅堂之中,房间是个安静古典的中式布置,桌子上放着一些青花瓷,对联上左书“义本生知人机同道善思新”,右书“通云赋智乾坤启数高志远”, 横批“智启通义”,字体飘逸,中间挂在一着一副中国风的画作,内容是岳阳楼。 |
通义千问图像编辑
通义千问图像编辑模型支持精准的中英双语文字编辑、调色、细节增强、风格迁移、增删物体、改变位置和动作等操作,可实现复杂的图文编辑。API参考
模型名称 | 计费单价 | 免费额度 |
qwen-image-edit | 0.3元/张 | 免费额度:100张 有效期:阿里云百炼开通后180天内 |
原图 | 将图中的人物改为站立姿势,弯腰握住狗的前爪 | 原图 | 将字母块上的单词'HEALTH INSURANCE’ 替换为'明天会更好' |
原图 | 用浅蓝色衬衫替换圆点衬衫 | 原图 | 将图中背景改为南极 |
原图 | 生成人物的卡通头像 | 原图 | 删除餐盘上的头发 |
通义千问图像翻译
通义千问图像翻译模型支持将11种语言图片的文字翻译成中文或英文,能精准保留原始排版与内容信息,并提供术语定义、敏感词过滤、图像主体检测等自定义功能。API参考
模型名称 | 计费单价 | 免费额度 |
qwen-mt-image | 0.003元/张 | 免费额度:100张 有效期:阿里云百炼开通后180天内 |
原图 | 日语 |
葡语 | 阿拉伯语 |
通义万相文生图
文生图V2版
文生图V2系列模型是文生图的通用模型,推荐选择最新版的模型开启文生图创作。API参考 | 在线体验
模型名称 | 说明 | 单价 | 免费额度(注) 有效期:阿里云百炼开通后180天内 |
wan2.2-t2i-plus | 万相2.2专业版。在创意性、稳定性、写实质感上全面升级。 | 0.20元/张 | 100张 |
wan2.2-t2i-flash | 万相2.2极速版。在创意性、稳定性、写实质感上全面升级。 | 0.14元/张 | 100张 |
wanx2.1-t2i-plus | 万相2.1专业版。支持多种风格,生成图像细节丰富。 | 0.20元/张 | 500张 |
wanx2.1-t2i-turbo | 万相2.1极速版。支持多种风格,生成速度快。 | 0.14元/张 | 500张 |
wanx2.0-t2i-turbo | 万相2.0极速版。擅长质感人像与创意设计,性价比高。 | 0.04元/张 | 500张 |
场景1:文字生成能力 提示词:生成一张新年祝福贺卡,背景有白雪,放鞭炮的小孩,蛇形成文案2025,并写上HAPPY NEW YEAR。 效果对比:2.2模型的文字生成能力更强,适合创意设计场景。 | ||
wan2.2-t2i-plus | wanx2.1-t2i-turbo | wanx2.0-t2i-turbo |
场景2:人像生成能力 提示词:中国女孩,圆脸,看着镜头,优雅的民族服装,商业摄影,室外,电影级光照,半身特写,精致的淡妆,锐利的边缘。 效果对比:2.2模型生图更稳定,此外2.0模型在质感人像生成方面表现出色,两种模型均可选择。 | ||
wan2.2-t2i-plus | wanx2.1-t2i-turbo | wanx2.0-t2i-turbo |
文生图V1版
推荐您使用全面升级的文生图V2版模型。
可以基于输入的文本生成图片。此外,还支持输入参考图片,并参考图片内容或者图片风格进行图片生成。API参考 | 在线体验
模型名称 | 示例输入 | 示例输出 | 单价 | 免费额度(注) |
wanx-v1 | 提示词:一只小狗在笑 | 0.16元/张 | 500张 有效期:百炼开通后180天内 |
通义万相通用图像编辑
通义万相-通用图像编辑模型通过简单的指令即可实现多样化的图像编辑,适用于扩图、去水印、风格迁移、图像修复、图像美化等场景。使用方法 | API参考
模型名称 | 计费单价 | 免费额度 |
wanx2.1-imageedit | 0.14元/张 | 免费额度:500张 有效期:百炼开通后180天内 |
目前通用图像编辑支持以下功能:
模型功能 | 输入图像 | 输入提示词 | 输出图像 |
全局风格化 | 转换成法国绘本风格 | ||
局部风格化 | 把房子变成木板风格。 | ||
指令编辑 | 把女孩的头发修改为红色。 | ||
局部重绘 | 输入图像 涂抹区域图像(白色为涂抹区域) | 一只陶瓷兔子抱着一朵陶瓷花。 | 输出图像 |
去文字水印 | 去除图像中的文字。 | ||
扩图 | 一位绿色仙子。 | ||
图像超分 | 模糊图像 | 图像超分。 | 清晰图像 |
图像上色 | 蓝色背景,黄色的叶子。 | ||
线稿生图 | 北欧极简风格的客厅。 | ||
垫图 | 卡通形象小心翼翼地探出头,窥视着房间内一颗璀璨的蓝色宝石。 |
通义万相涂鸦作画
基于输入的手绘图加文字描述,即可生成精美的涂鸦绘画作品。API参考
模型名称 | 示例输入 | 示例输出 | 单价 | 免费额度(注) |
wanx-sketch-to-image-lite | 提示词:一棵参天大树 | 0.06元/张 | 500张 有效期:百炼开通后180天内 |
通义万相图像局部重绘
根据用户输入的原始图片和局部涂抹图、prompt提示词文字内容,生成符合语义描述的多样化风格的局部重绘图像。API参考
模型名称 | 示例输入 | 示例输出 | 单价 | 免费额度(注) |
wanx-x-painting | 布局涂抹图: 提示词:一只狗戴着红色眼镜 | 目前仅供免费体验。 免费额度用完后不可调用,推荐参考图像编辑-通义千问或图像编辑-通义万相获取替代方案。 | 500张 有效期:百炼开通后180天内 |
人像风格重绘
人像风格重绘可以将输入的人物图像进行多种风格化的重绘生成,使新生成的图像在兼顾原始人物相貌的同时,带来不同风格的绘画效果。API参考
模型名称 | 示例输入 | 示例输出 | 单价 | 免费额度(注) |
wanx-style-repaint-v1 | 风格:清雅国风 | 0.12元/张 | 500张 有效期:百炼开通后180天内 |
图像背景生成
图像背景生成可以基于输入的前景图像素材拓展生成背景信息,实现自然的光影融合效果,与细腻的写实画面生成。支持文本描述、图像引导等多种方式,同时支持对生成的图像智能添加文字内容。API参考
模型名称 | 示例输入 | 示例输出 | 单价 | 免费额度(注) |
wanx-background-generation-v2 | 提示词:在桌面上,旁边有插着花朵的花瓶,背后是纯色高级的背景墙。 | 0.08元/张 | 500张 有效期:百炼开通后180天内 |
图像画面扩展
图像画面大模型,对输入图像进行画面自由扩展,支持旋转画面,支持按照扩展系数和扩展像素数两种方式进行扩图。用户可以通过指定宽度、高度画面扩展比例或者左、右、上、下的扩展的像素值来控制画面扩展,可用于创意娱乐、辅助作图、画面设计、影视后期制作等场景。API参考
模型名称 | 示例输入 | 示例输出 | 单价 | 免费额度(注) |
image-out-painting | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。 | 500张 有效期:百炼开通后180天内 |
人物实例分割
输入人物图像,模型识别出图像中的不同人物对象并画出每个对象边界的像素级掩码。API参考
模型名称 | 示例输入 | 示例输出 | 单价 | 免费额度 |
image-instance-segmentation | 输出结果1:像素级掩码图像 输出结果2:可视化图像 | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。 | 500张 有效期:百炼开通后180天内 |
图像擦除补全
输入图像并指定待擦除区域掩码图像以及保留区域掩码图像,模型在保留原图背景的同时擦除指定图像区域。API参考
针对人物图像的擦除、补全,推荐通过人物实例分割得到图像中不同人物对象的图像掩码,选择完整的人物图像掩码擦除一个或多个人物。
模型名称 | 示例输入 | 示例输出 | 单价 | 免费额度 |
image-erase-completion | 原图 待擦除区域 保留区域 | 输出图像 | 目前仅供免费体验。 免费额度用完后不可调用,推荐参考图像编辑-通义千问或图像编辑-通义万相获取替代方案。 | 500张 有效期:百炼开通后180天内 |
虚拟模特
可以对上传的真人实拍商品展示图进行智能生成,将其中的模特和背景替换为心仪的内容,在保持人物姿态不变的情况下,使用虚拟模特对商品进行更加精美、多样的展示。支持各种与模特产生互动的商品,如手持小商品、服装、鞋靴、配饰等。API参考
模型名称 | 版本 | 模型简介 | 单价 | 免费额度(注) |
wanx-virtualmodel | V1 |
| 目前仅供免费体验。 免费额度用完后不可调用,推荐参考图像编辑-通义千问或图像编辑-通义万相获取替代方案。 | 500张 有效期:百炼开通后180天内 |
virtualmodel-v2 | V2 |
|
输入图 | 参数配置 | 输出图 |
v1 真人图 | "prompt":"一位年轻男性站着摆拍,在空荡的卧室里,窗户旁边,阳光照射进来,highly detailed,8K,极简主义风格" "face_prompt":"英俊的男性,脸好,脸美,质量上乘,杰作,(逼真度:1.4)" "predefined_face_id":"boy3" | v1输出 |
v2人台图 | "prompt":"A woman stands beside a luxurious swimming pool, her attire and posture suggesting leisure and relaxation. The pool's calm, crystal-clear waters reflect the surrounding opulent setting, with elegant lounge chairs inviting moments of repose under the sun. Perhaps it's a high-end resort or an upscale private villa, where the tiled pool deck and meticulously landscaped greenery speak of exclusivity and refinement." "face_prompt":"good face, beautiful face, best quality." "aspect_ratio":"4:3" "realPerson":false | v2输出 |
鞋靴模特
鞋靴模特支持输入多视角鞋靴系列图片,同时对输入模特模板图的鞋子区域进行鞋靴AI试穿,实现模特鞋靴布局重绘生成,最终生成图片的效果,布局自然、细节丰富、画面细腻、试穿结果逼真。可用于模特商品图设计、新鞋AI试穿、模特穿戴布局重绘等场景。API参考
模型名称 | 示例输入 | 示例输出 | 单价 | 免费额度 |
shoemodel-v1 | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。 | 500张 有效期:百炼开通后180天内 |
创意海报生成
根据您的要求自动生成海报的背景和文字排版,支持多种海报风格。无需设计基础,轻松制作出彩作品,让创意触手可及。API参考
模型名称 | 示例输入 | 示例输出 | 单价 | 免费额度(注) |
wanx-poster-generation-v1 | "title":"元宵节", "sub_title":"正月十五", "body_text":"团圆时节,汤圆香甜,祝你幸福美满!", "prompt_text_zh":"灯笼,小猫,梅花", "wh_ratios":"竖版", "lora_name":"童话油画", | 目前仅供免费体验。 免费额度用完后不可调用,推荐参考图像编辑-通义千问或图像编辑-通义万相获取替代方案。 | 500张 有效期:百炼开通后180天内 |
人物写真生成-FaceChain
人物图像检测:对用户上传的人物图像进行检测,判断其中所包含的人脸是否符合Facechain微调所需的标准,检测维度包括人脸数量、大小、角度、光照、清晰度等多维度,支持图像组输入,并返回每张图像对应的检测结果。API参考
人物形象训练:对上传的图像进行模型训练,从而获得该图像中对应人物的resource,基于该resource可以实现人物的写真生成。API参考
人物写真生成:基于人物形象训练已经得到的形象,可以继续通过人物生成写真模型完成该形象的写真生成,支持多种预设风格,包括证件照、商务写真等。API参考
模型名称 | 说明 | 示例输入 | 示例输出 | 单价 | 免费额度(注) |
facechain-facedetect | 人物图像检测 | 风格:商务写真 | 限时免费 | 限时免费 | |
facechain-finetune | 人物形象训练 | 2.5元/次 | 50次 有效期:申请通过后180天内 | ||
facechain-generation | 人物写真生成 | 0.18元/张 | 500张 有效期:申请通过后180天内 |
创意文字生成-WordArt锦书
文字纹理生成:可以对输入的文字内容或文字图片进行创意设计,根据提示词内容对文字添加材质和纹理,实现立体凸显或场景融合的效果,生成效果精美、风格多样的艺术字,结合背景可以直接作为文字海报使用。API参考
文字变形:可以对输入的文字边缘轮廓进行创意变形,根据提示词内容进行边缘变化,实现一种字体的更多种创意用法,返回带有文字内容的黑底白色mask图。API参考
模型名称 | 说明 | 示例输入 | 示例输出 | 单价 | 免费额度(注) |
wordart-texture | 文字纹理生成 | 提示词:精美玉石 风格类型:立体材质 | 0.08元/张 | 各500张 有效期:百炼开通后180天内 | |
wordart-semantic | 文字变形 | 文字:桂林山水 提示词:山峦叠嶂、漓江蜿蜒、岩石奇秀 | 0.24元/张 |
AI试衣
AI试衣-Plus版相较于基础版模型,在图片清晰度、服饰纹理细节和logo还原效果等方面均有提升,但生成耗时较长,适用于对时效性要求不高的场景。API参考 | 在线体验
AI试衣-图片分割支持对模特图、服饰图进行分割,可用于AI试衣图片的前后处理。API参考
AI试衣-图片精修是对AI试衣生成的效果图进行二次生成,输出还原度更高的精修试衣效果图。API参考
模型名称 | 说明 | 示例输入 | 示例输出 | 免费额度(注) |
aitryon | AI试衣-基础版 | 各400张 有效期:百炼开通后180天内 | ||
aitryon-plus | AI试衣-Plus版 | |||
aitryon-parsing-v1 | AI试衣-图片分割 | |||
aitryon-refiner | AI试衣-图片精修 | 100张 有效期:百炼开通后180天内 |
AI试衣计费单价
模型服务 | 模型名称 | 计量单价 | 折扣 | 阶梯层级 |
AI试衣-基础版 | aitryon | 0.20元/张 | 无 | 无 |
AI试衣-Plus版 | aitryon-plus | 0.50元/张 | 无 | 无 |
AI试衣-图片分割 | aitryon-parsing-v1 | 0.004元/张 | 无 | 无 |
AI试衣-图片精修 | aitryon-refiner | 0.30元/张 | 无 | 生成数量 ≤ 25张 |
0.275元/张 | 9.2折 | 25张 < 生成数量 ≤ 125张 | ||
0.25元/张 | 8.4折 | 125张 < 生成数量 ≤ 250张 | ||
0.225元/张 | 7.5折 | 250张 < 生成数量 ≤ 1250张 | ||
0.2元/张 | 6.7折 | 1250张 < 生成数量 ≤ 2500张 | ||
0.175元/张 | 5.8折 | 2500张 < 生成数量 ≤ 2.5万张 | ||
0.15元/张 | 5折 | 生成数量 > 2.5万张 |
图像生成-第三方模型
Stable Diffusion
模型名称 | 说明 | 单价 | 免费额度(注) |
stable-diffusion-3.5-large | 具有8亿参数的多模态扩散变压器(MMDiT)文本到图像生成模型,具备卓越的图像质量和提示词匹配度,支持生成100万像素的高分辨率图像,且能够在普通消费级硬件上高效运行。相比于v1.5和xl,在图像质量、文本内容生成、复杂提示理解和资源效率方面均有显著提升。 | 目前仅供免费体验。 免费额度用完后不可调用,推荐参考文本生成图像获取替代方案 | 500张 有效期:申请通过后180天内 |
stable-diffusion-3.5-large-turbo | 在stable-diffusion-3.5-large的基础上采用对抗性扩散蒸馏(ADD)技术的模型,具备更快的速度。 | ||
stable-diffusion-xl | 相比v1.5做了重大改进,被认为是当前开源文生图模型的SOTA水准,具体改进包括:unet backbone是之前的3倍;增加了refinement模块用于改善生成图片的质量;更高效的训练技巧等。 | ||
stable-diffusion-v1.5 | 通过clip模型将文本的embedding和图片embedding映射到相同空间,从而通过输入文本并结合unet的稳定扩散预测噪声的能力,生成图片。是一款基础的文生图模型,得到了业界广泛使用。 |
FLUX
Black Forest Labs的开源文生图模型,尤其擅长生成包含文字、多主体、手部细节的图片。
模型名称 | 说明 | 单价 | 免费额度(注) |
flux-merged | 结合了flux-dev的深度和flux-schnell的快速执行。 | 目前仅供免费体验。 免费额度用完后不可调用,推荐参考文本生成图像获取替代方案 | 1000张 有效期:百炼开通后180天内 |
flux-dev | 开发者版,面向非商业应用,具有与专业版相近的图像质量和指令遵循能力,同时运行效率更高。 | ||
flux-schnell | 快速版,轻量级模型。 |
语音合成(文本转语音)
Qwen-TTS
Qwen-TTS 是通义千问系列的语音合成模型,支持输入中文、英文、中英混合的文本,并流式输出音频。使用方法|API 参考|在线体验 | 音色列表
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||||
qwen-tts 当前与 qwen-tts-2025-04-10 能力相同 | 稳定版 | 8,192 | 512 | 7,680 | 0.0016元 | 0.01元 | 各100万Token 有效期:百炼开通后180天内 |
qwen-tts-latest 始终与最新快照版能力相同 | 最新版 | ||||||
qwen-tts-2025-05-22 | 快照版 | ||||||
qwen-tts-2025-04-10 |
音频转换为 Token 的规则:每1秒的音频对应 50个 Token 。若音频时长不足1秒,则按 50个 Token 计算。
Qwen-TTS-Realtime
在Qwen-TTS基础上,支持文本的流式输入,具有根据文本内容与标点符号自适应调节语音语速的能力。支持输入中文、英文、中英混合的文本,并流式输出音频。使用方法|客户端事件|服务端事件 | 音色列表
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||||
qwen-tts-realtime 当前能力等同 qwen-tts-realtime-2025-07-15 | 稳定版 | 8,192 | 512 | 7,680 | 0.0024元 | 0.012元 | 各100万Token 有效期:百炼开通后180天内 |
qwen-tts-realtime-latest 能力始终等同最新快照版 | 最新版 | ||||||
qwen-tts-realtime-2025-07-15 | 快照版 |
CosyVoice
CosyVoice是通义实验室依托大规模预训练语言模型,深度融合文本理解和语音生成的新一代生成式语音合成大模型,支持文本至语音的实时流式合成。语音合成(CosyVoice) | 在线体验 | 音色列表
模型名称 | 单价 | 免费额度 |
cosyvoice-v1 | 2元/万字符 根据待合成字符数计费(其中1个汉字算2个字符,英文、标点符号、空格均按照1个字符计费)。 | 每主账号每模型每月2000字符。 |
cosyvoice-v2 |
Sambert
Sambert语音合成API基于达摩院改良的自回归韵律模型,支持文本至语音的实时流式合成。API参考 | 模型(音色)列表
模型名称 | 单价 | 免费额度 |
参见模型(音色)列表 | 1元/万字符 根据待合成字符数计费(其中1个汉字算2个字符,英文、标点符号、空格均按照1个字符计费)。SSML标签内容不计费。 | 每主账号每模型每月3万字符。 |
语音识别(语音转文本)与翻译(语音转成指定语种的文本)
Gummy
Gummy大模型支持实时语音识别与翻译,能够精准识别中、英、日、韩等10种语言。此外,它还支持中、英、日、韩之间的互译,以及其他6种语言单向翻译成中文或英文。API参考
模型名称 | 支持的语言 | 支持的采样率 | 适用场景 | 支持的音频格式 | 单价 | 免费额度 |
gummy-realtime-v1 | 中文、英文、日语、韩语、粤语、德语、法语、俄语、意大利语、西班牙语 翻译语言对: 中 → 英/日/韩 英 → 中/日/韩 日/韩/粤/德/法/俄/意/西 → 中/英 | 16kHz及以上 | 会议演讲、视频直播等长时间不间断识别的场景 | pcm、wav、mp3、opus、speex、aac、amr | 0.00015元/秒 | 36,000秒(10小时) 2025年1月17日0点前开通百炼:有效期至2025年7月15日 2025年1月17日0点后开通百炼:自开通日起180天有效 |
gummy-chat-v1 | 16kHz | 对话聊天、指令控制、语音输入法、语音搜索等短时语音交互场景 |
FunASR
FunASR 是通义实验室推出的端到端语音识别大模型。它基于先进的自研语音技术,具备卓越的上下文感知和高精度转写能力。API参考
模型名称 | 版本 | 支持的语言 | 支持的采样率 | 适用场景 | 支持的音频格式 | 单价 | 免费额度 |
fun-asr-v1 当前等同fun-asr-2025-08-25 | 稳定版 | 中文、英文 | 任意 | 视频直播、电话语音、会议同传等 | aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv | 0.00022元/秒 | 36,000秒(10小时) 该模型开放邀测(所有人可见,申请使用),申请通过后发放免费额度 有效期180天 |
fun-asr-2025-08-25 | 快照版 |
Paraformer
Paraformer语音识别服务只识别并转写音频中的语音内容,非语音内容不计费。实际转写时长通常短于原始音频时长。由于采用AI判断,可能存在少许误差。
默认情况下,仅转写并计费多轨音频文件的首轨。若指定转写多个音轨,则各音轨按语音时长单独计费。
关于实际计费时长,请查看返回结果中的content_duration字段。
录音文件识别
模型名称 | 支持的语言 | 支持的采样率 | 适用场景 | 支持的音频格式 | 单价 | 免费额度 |
paraformer-v2 | 中文普通话、中文方言(粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话、江西话、云南话、上海话)、英语、日语、韩语、德语、法语、俄语 | 任意 | 视频直播 | aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv | 0.00008元/秒 | 36,000秒(10小时) 每月1日0点自动发放 有效期1个月 |
paraformer-8k-v2 | 中文普通话 | 8kHz | 电话语音 | |||
paraformer-v1 | 中文普通话、英语 | 任意 | 音频或视频 | |||
paraformer-8k-v1 | 中文普通话 | 8kHz | 电话语音 | |||
paraformer-mtl-v1 | 中文普通话、中文方言(粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话)、英语、日语、韩语、西班牙语、印尼语、法语、德语、意大利语、马来语 | 16kHz及以上 | 音频或视频 |
实时语音识别
模型名称 | 支持的语言 | 支持的采样率 | 适用场景 | 支持的音频格式 | 单价 | 免费额度 |
paraformer-realtime-v2 | 中文普通话、中文方言(粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话、江西话、云南话、上海话)、英语、日语、韩语、德语、法语、俄语 支持多个语种自由切换 | 任意 | 视频直播、会议等 | pcm、wav、mp3、opus、speex、aac、amr | 0.00024元/秒 | 36,000秒(10小时) 每月1日0点自动发放 有效期1个月 |
paraformer-realtime-v1 | 中文 | 16kHz | ||||
paraformer-realtime-8k-v2 | 8kHz | 电话客服等 | ||||
paraformer-realtime-8k-v1 |
SenseVoice
录音文件识别
专注于高精度多语言语音识别,还能识别情绪(高兴、悲伤、生气等)和特定事件(背景音乐、歌唱、掌声和笑声等)。API参考
只识别并转写音频中的语音内容,非语音内容不计费。实际转写时长通常短于原始音频时长。由于采用AI判断,可能存在少许误差。
默认情况下,仅转写并计费多轨音频文件的首轨。若指定转写多个音轨,则各音轨按语音时长单独计费。
关于实际计费时长,请查看返回结果中的content_duration_in_milliseconds字段。
模型名称 | 支持的语言 | 支持的格式 | 单价 | 免费额度 |
sensevoice-v1 | 超过50种语言(中、英、日、韩、粤等) | 音频或视频:aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv | 0.0007 元/秒 | 36,000秒(10小时) 每月1日0点自动发放 有效期1个月 |
视频生成-通义万相与视频编辑
文生视频
通义万相-文生视频模型通过一句话即可生成视频,视频呈现丰富的艺术风格及影视级画质。API参考 |在线体验
模型名称 | 说明 | 单价 | 免费额度(注) 有效期:阿里云百炼开通后180天内 |
wan2.2-t2v-plus | 万相2.2专业版。指令理解更准,运动稳定流畅生成,生成细节更丰富。 | 480P:0.14元/秒 1080P:0.70元/秒 | 50秒 |
wanx2.1-t2v-turbo | 万相2.1极速版。性价比高。 | 0.24元/秒 | 200秒 |
wanx2.1-t2v-plus | 万相2.1专业版。画面更具质感。 | 0.70元/秒 | 200秒 |
输入示例 | 输出视频 |
低对比度,在一个复古的70年代风格地铁站里,街头音乐家在昏暗的色彩和粗糙的质感中演奏。他穿着旧式夹克,手持吉他,专注地弹奏。通勤者匆匆走过,一小群人渐渐聚拢聆听。镜头慢慢向右移动,捕捉到乐器声与城市喧嚣交织的场景,背景中有老式的地铁标志和斑驳的墙面。 |
图生视频-基于首帧
通义万相-图生视频模型将输入图片作为视频首帧,再根据提示词生成视频。视频呈现丰富的艺术风格及影视级画质。API参考 |在线体验
模型名称 | 说明 | 单价 | 免费额度(注) 有效期:阿里云百炼开通后180天内 |
wan2.2-i2v-flash | 万相2.2专业版。 极致生成速度,指令理解与运镜控制更准,画面元素保持一致,稳定性与成功率全面提升。 | 480P:0.10元/秒 720P:0.20元/秒 | 50秒 |
wan2.2-i2v-plus | 万相2.2专业版。 指令理解更准,运镜可控,画面元素保持一致,稳定性与成功率全面提升,生成内容更丰富。 | 480P:0.14元/秒 1080P:0.70元/秒 | 50秒 |
wanx2.1-i2v-turbo | 万相2.1极速版。性价比高。 | 0.24元/秒 | 200秒 |
wanx2.1-i2v-plus | 万相2.1专业版。画面更具质感。 | 0.70元/秒 | 200秒 |
输入示例 | 输出视频 |
输入提示词:一只猫在草地上奔跑 输入图片: | 输出视频:将图片作为视频的第一帧,再根据提示词生成视频。 模型:wanx2.1-i2v-turbo。 |
图生视频-基于首尾帧
通义万相-首尾帧生视频模型,只需要提供首帧和尾帧图片,便能根据提示词生成一段丝滑流畅的动态视频。API参考 | 在线体验
模型名称 | 单价 | 免费额度 |
wanx2.1-kf2v-plus | 0.70元/秒 | 200秒 有效期:百炼开通后180天内 |
输入示例 | 输出视频 | ||
首帧图片 | 尾帧图片 | 提示词 | |
写实风格,一只黑色小猫好奇地看向天空,镜头从平视逐渐上升,最后俯拍小猫好奇的眼神。 |
通用视频编辑
通义万相-视频编辑统一模型支持多模态输入,包括文本、图像和视频,能够执行视频生成与通用编辑任务。API参考
模型名称 | 单价 | 免费额度 |
wanx2.1-vace-plus | 0.70元/秒 | 50秒 有效期:百炼开通后180天内 |
视频编辑统一模型支持以下功能:
模型功能 | 输入参考图 | 输入提示词 | 输出视频 |
多图参考 | 参考图1(参考主体) 参考图2(参考背景) | 视频中,一位女孩自晨雾缭绕的古老森林深处款款走出,她步伐轻盈,镜头捕捉她每一个灵动瞬间。当女孩站定,环顾四周葱郁林木时,她脸上绽放出惊喜与喜悦交织的笑容。这一幕,定格在了光影交错的瞬间,记录下女孩与大自然的美妙邂逅。 | 输出视频 |
视频重绘 | 视频展示了一辆黑色的蒸汽朋克风格汽车,绅士驾驶着,车辆装饰着齿轮和铜管。背景是蒸汽驱动的糖果工厂和复古元素,画面复古与趣味 | ||
局部编辑 | 输入视频 输入掩码图像(白色区域表示编辑区域) | 视频展示了一家巴黎风情的法式咖啡馆,一只穿着西装的狮子优雅地品着咖啡。它一手端着咖啡杯,轻轻啜饮,神情惬意。咖啡馆装饰雅致,柔和的色调与温暖灯光映照着狮子所在的区域。 | 根据提示词修改编辑区域的内容 |
视频延展 | 输入首片段视频(1秒) | 一只戴着墨镜的狗在街道上滑滑板,3D卡通。 | 输出延长后的视频(5秒) |
视频画面扩展 | 一位优雅的女士正在激情演奏小提琴,她身后是一支完整的交响乐团。 |
数字人
基于单张人物图片和音频,生成动作自然的说话、唱歌或表演视频。使用时需依次调用下述模型。wan2.2-s2v 图像检测 | wan2.2-s2v 视频生成
模型名称 | 模型简介 | 计费单价 | 免费额度 |
wan2.2-s2v-detect | 检查输入图像是否满足要求(如清晰度、单人、正面)。 | 0.004元/张 | 免费额度:200张 有效期:阿里云百炼开通后180天内 |
wan2.2-s2v | 根据检测通过的图片和一段音频,生成人物动态视频。 | 480P:0.5元/秒 720P:0.9元/秒 | 免费额度:100秒 有效期:阿里云百炼开通后180天内 |
舞动人像AnimateAnyone
基于人物图片和人物动作模板,生成人物动作视频。直接使用时需依次调用下述三个模型。AnimateAnyone图像检测 API详情 | AnimateAnyone 动作模板生成| AnimateAnyone视频生成API详情
模型名称 | 说明 | 单价 | 免费额度 |
animate-anyone-detect-gen2 | 检测输入的图片是否符合要求 | 0.004元/张 | 200张 有效期:百炼开通后180天内 |
animate-anyone-template-gen2 | 从人物运动视频中提取人物动作并生成动作模板 | 0.08元/秒 | 各1800秒 有效期:百炼开通后180天内 |
animate-anyone-gen2 | 基于人物图片和动作模板生成人物动作视频 |
下面两个模型支持独立部署。模型部署后,模型调用参考这两个API详情。AnimateAnyone图像检测 API详情 | AnimateAnyone视频生成API详情
模型名称 | 说明 | 单价 | 免费额度 |
animate-anyone-detect | 检测输入图片是否符合要求 | 当前仅支持部署后调用,仅收取部署费用。部署单价:
| 无 |
animate-anyone | 基于人物图片和动作模板生成人物动作视频 |
输入:人物图片 | 输入:动作视频 | 输出(按图片背景生成) | 输出(按视频背景生成) |
以上示例,由集成了“舞动人像AnimateAnyone”的通义APP生成。
舞动人像AnimateAnyone模型的生成内容为视频画面,不包含音频。
悦动人像EMO
基于人物肖像图片和人声音频文件,生成人物肖像动态视频。使用时需依次调用下述模型。EMO 图像检测 | EMO 视频生成
emo-detect-v1与emo-detect、emo-v1与emo在调用方式及计费方式中有区别,模型效果完全相同。
模型名称 | 说明 | 单价 | 免费额度 |
emo-detect-v1 | 检测输入的图片是否符合要求,不需要部署,可直接调用 | 0.004元/张 | 200张 有效期:百炼开通后180天内 |
emo-v1 | 生成人物肖像动态视频,不需要部署,可直接调用 |
| 1800秒 有效期:百炼开通后180天内 |
emo-detect | 检测输入的图片是否符合要求,仅支持部署后调用 | 当前仅支持部署后调用,仅收取部署费用。 部署单价:20元/算力单元/小时 | 无 |
emo | 生成人物肖像动态视频,仅支持部署后调用 |
输入物:人物肖像图片+人声音频文件 | 输出物:人物肖像动态视频 |
人物肖像: 人声音频:参见右侧视频 | 人物视频: 使用动作风格强度:活泼("style_level": "active") |
灵动人像LivePortrait
基于人物肖像图片和人声音频文件,快速、轻量地生成人物肖像动态视频。与悦动人像EMO模型相比,生成速度快、价格低,但是生成效果不如悦动人像EMO模型。使用时需依次调用下述两个模型。LivePortrait 图像检测 | LivePortrait 视频生成
模型名称 | 说明 | 单价 | 免费额度 |
liveportrait-detect | 检测输入的图片是否符合要求 | 0.004元/张 | 200张 有效期:百炼开通后180天内 |
liveportrait | 生成人物肖像动态视频 | 0.02元/秒 | 1800秒 有效期:百炼开通后180天内 |
输入物:人物肖像图片+人声音频文件 | 输出物:人物肖像动态视频 |
人物肖像: 人声音频:参见右侧视频 | 人物视频: |
表情包Emoji
基于人脸图片和预设的人脸动态模板,生成人脸动态视频。该能力可用于表情包制作、视频素材生成等场景。使用时需依次调用下述模型。Emoji 图像检测 | Emoji 视频生成
模型名称 | 说明 | 单价 | 免费额度 |
emoji-detect-v1 | 检测输入图片是否符合要求 | 0.004元/张 | 200张 有效期:百炼开通后180天内 |
emoji-v1 | 基于人物肖像图片和指定的表情包模板生成人物同款表情 | 0.08元/秒 | 500秒 有效期:百炼开通后180天内 |
输入:人物肖像图片 | 输出:人物肖像动态视频 |
“开心”表情的模板序列:("input.driven_id": "mengwa_kaixin") |
声动人像VideoRetalk
基于人物视频和人声音频,生成人物讲话口型与输入音频相匹配的视频。使用时需调用下述模型。API参考
模型名称 | 说明 | 单价 | 免费额度 |
videoretalk | 生成人物讲话口型与输入音频相匹配的新视频 | 0.08元/秒 | 1800秒 有效期:百炼开通后180天内 |
视频风格重绘
支持根据用户输入的文字内容,生成符合语义描述的不同风格的视频,或者根据用户输入的视频,进行视频风格重绘。API参考
模型名称 | 说明 | 单价 | 免费额度 | |
video-style-transform | 将输入视频转换为日式漫画、美式漫画等风格 | 720P | 0.5元/s | 600秒 有效期:百炼开通后180天内 |
540P | 0.2元/s |
输入视频 | 输出视频(日式漫画) |
文本向量
文本向量模型用于将文本转换成一组可以代表文字的数字,适用于搜索、聚类、推荐、分类任务。模型根据输入Token数计费。同步接口API详情 | 批处理接口API详情
公共云
模型名称 | 向量维度 | 最大行数 | 单行最大处理Token数 | 支持语种 | 单价 (每千输入Token) | 免费额度(注) |
text-embedding-v4 属于Qwen3-Embedding系列 | 2,048、1,536、1,024(默认)、768、512、256、128、64 | 10 | 8,192 | 中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语等100+主流语种及多种编程语言 | 0.0005元 Batch调用:0.00025元 | 100万Token 有效期:百炼开通后180天内 |
text-embedding-v3 | 1,024(默认)、768、512、256、128或64 | 中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语等50+主流语种 | 0.0005元 Batch调用:0.00025元 | 各50万Token 有效期:百炼开通后180天内 | ||
text-embedding-v2 | 1,536 | 25 | 2,048 | 中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语 | 0.0007元 Batch调用:0.00035元 | |
text-embedding-v1 | 中文、英语、西班牙语、法语、葡萄牙语、印尼语 | |||||
text-embedding-async-v2 | 100,000 | 中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语 | 0.0007元 | 各2000万Token 有效期:百炼开通后180天内 | ||
text-embedding-async-v1 | 中文、英语、西班牙语、法语、葡萄牙语、印尼语 |
金融云
模型名称 | 向量维度 | 最大行数 | 单行最大处理Token数 | 支持语种 | 单价 (每千输入Token) | 免费额度(注) |
text-embedding-v3 | 1024(默认)、768或512 | 10 | 8,192 | 中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语等50+主流语种 | 0.00133元 | 50万Token 有效期:百炼开通后180天内 |
多模态向量
多模态向量模型将文本、图像或视频转换成一组由浮点数组成的向量,适用于视频分类、图像分类、图文检索等。API参考
模型名称 | 数据类型 | 向量维度 | 单价 | 免费额度(注) | 限流 |
multimodal-embedding-v1 | float(32) | 1,024 | 免费试用 | 无加权条目数限制 | 每分钟调用限制(RPM):120 |
文本分类、抽取、排序
OpenNLU
针对给定的文本(中文或英文)进行信息抽取或文本分类。模型根据输出Token数计费。API参考
模型名称 | 最大输入Token数 | 单价(每千Token) | 免费额度(注) |
opennlu-v1 | 1,024 | 0.00465元 | 100万Token 有效期:百炼开通后180天内 |
文本排序模型
通常用于语义检索,即给定查询 (Query) 和一系列候选文本 (Documents),会根据与查询的语义相关性从高到低对候选文本进行排序。API参考
模型名称 | 最大Document数量 | 单行最大输入Token | 最大输入Token | 支持语言 | 单价(每千输入Token) | 免费额度 |
gte-rerank-v2 | 500 | 4,000 | 30,000 | 中、英、日、韩、泰语、西、法、葡、德、印尼语、阿拉伯语等50+语种 | 0.0008元 | 100万Token 有效期:百炼开通后180天内 |
单行最大输入Token:每个Query或Document的最大Token数量为4,000。如果输入内容超过此长度,将会被截断。
最大Document数量:每次请求中Document的最大数量为500。
最大输入Token:每次请求中所有Query和Document的Token总数不得超过30,000。
行业
通义法睿
适用于回答法律问题、推荐裁判类案、辅助案情分析、生成法律文书、检索法律知识、审查合同条款等。API参考 | 在线体验
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 |
(Token数) | (每千Token) | ||||
farui-plus | 12k | 12k | 2k | 0.02元 |
意图理解
通义意图理解模型,能够在百毫秒级时间内快速、准确地解析用户意图,并选择合适工具来解决用户问题。API参考|使用方法
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||
tongyi-intent-detect-v3 | 8,192 | 8,192 | 1,024 | 0.0004元 | 0.001元 | 100万Token 有效期:百炼开通后180天内 |
角色扮演
通义千问的角色扮演模型,适合拟人化的对话场景(如虚拟社交、游戏NPC、IP复刻、硬件/玩具/车机等)。相比于其它通义千问模型,提升了人设还原、话题推进、倾听共情等能力。使用方法
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||
qwen-plus-character | 32,768 | 30,720 | 4,096 | 0.0008元 | 0.002元 | 100万Token 有效期:阿里云百炼开通后180天内 |
已下线模型
2025年7月30日下线
类别 | 模型名称 | 上下文长度 | 最大输入 | 输入成本 | 输出成本 | 替代模型 |
(Token数) | ||||||
通义千问VL快照版 | qwen-vl-plus-2023-12-01 | 8,000 | 6,000 | 2,000 | 0.008元 | qwen-vl-plus |
零一万物 | yi-large | 32,000 | 32,000 | 仅供免费体验,免费额度用完后不可调用。 | Qwen3、DeepSeek、Kimi等 | |
yi-medium | ||||||
yi-large-rag | 16,000 | 16,000 | ||||
yi-large-turbo | ||||||
Dolly | dolly-12b-v2 | 限时免费 |
2025年7月2日下线
类别 | 模型名称 | 上下文长度 | 最大输入 | 输入成本 | 输出成本 | 替代模型 |
(Token数) | ||||||
Llama-仅文本输入 | llama3.3-70b-instruct | 32,000 | 30,000 | 仅供免费体验,免费额度用完后不可调用。 | Qwen3、DeepSeek、Kimi等 | |
llama3.2-3b-instruct | ||||||
llama3.2-1b-instruct | ||||||
llama3.1-405b-instruct | ||||||
llama3.1-70b-instruct | ||||||
llama3.1-8b-instruct | ||||||
llama3-70b-instruct | 8,000 | 8,000 | ||||
llama3-8b-instruct | ||||||
llama2-13b-chat-v2 | 4,000 | 4,000 | ||||
llama2-7b-chat-v2 | ||||||
Llama-文本和图像输入 | llama3.2-90b-vision-instruct | 8,192 | 8,192 | |||
llama3.2-11b-vision | ||||||
百川开源版 | baichuan2-13b-chat-v1 | 4,096 | 4,096 | 0.008元 | 0.008元 | |
baichuan2-7b-chat-v1 | 0.006元 | 0.006元 | ||||
baichuan-7b-v1 | 仅供免费体验,免费额度用完后不可调用。 | |||||
ChatGLM | chatglm3-6b | 7,500 | 7,500 | 仅供免费体验,免费额度用完后不可调用。 | ||
chatglm-6b-v2 | 6,500 | 6,500 | 0.006元 | 0.006元 | ||
姜子牙 | ziya-llama-13b-v1 | - | 限时免费(需申请) | |||
BELLE | belle-llama-13b-2m-v1 | |||||
元语 | chatyuan-large-v2 | |||||
BiLLa | billa-7b-sft-v1 | |||||
动漫人物生成 | wanx-style-cosplay-v1 | 仅供免费体验,免费额度用完后不可调用。 | 无直接替代模型 | |||
图配文 | wanx-ast | |||||
创意文字生成-WordArt锦书 | wordart-surnames |
2025年5月8日下线
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 替代模型 |
(Token数) | (每千Token) | |||||
qwen-max-2024-01-07 又称qwen-max-0107 | 8,000 | 6,000 | 2,000 | 0.04元 | 0.12元 | qwen-max |
qwen-plus-2024-06-24 又称qwen-plus-0624 | 32,000 | 30,000 | 8,000 | 0.004元 | 0.012元 | qwen-plus |
qwen-plus-2024-02-06 又称qwen-plus-0206 | ||||||
qwen-turbo-2024-02-06 又称qwen-turbo-0206 | 8,000 | 6,000 | 2,000 | 0.002元 | 0.006元 | qwen-turbo |
qwen-vl-max-2024-02-01 又称qwen-vl-max-0201 | 8,000 | 6,000 单图最大1280 | 2,000 | 0.02元 | qwen-vl-max | |
qwen-72b-chat | 32,000 | 30,000 | 2,000 | 0.02元 | qwen2.5-72b-instruct | |
qwen-14b-chat | 8,000 | 6,000 | 0.008元 | qwen2.5-14b-instruct | ||
qwen-7b-chat | 7,500 | 1,500 | 0.006元 | qwen2.5-7b-instruct | ||
qwen-1.8b-chat | 8,000 | 2,000 | 限时免费 | qwen2.5-1.5b-instruct | ||
qwen-1.8b-longcontext-chat | 32,000 | 30,000 | qwen2.5-1.5b-instruct | |||
qwen2-math-72b-instruct | 4,096 | 3,072 | 3,072 | 0.004元 | 0.012元 | qwen2.5-math-72b-instruct |
qwen2-math-7b-instruct | 0.001元 | 0.002元 | qwen2.5-math-7b-instruct | |||
qwen2-math-1.5b-instruct | 限时免费 | qwen2.5-math-1.5b-instruct |
模型名称 | 单价 | 替代模型 |
motionshop-video-detect | 0.04元/次 | 使用animate-anyone-gen2的“按视频背景生成”功能,可达到近似效果 |
motionshop-gen3d | 1元/次 | |
motionshop-synthesis | 0.2元/秒 |