模型列表_大模型服务平台百炼(Model Studio)-阿里云帮助中心

百炼提供了丰富多样的模型选择，它集成了通义系列大模型和第三方大模型，涵盖文本、图像、音视频等不同模态。

旗舰模型

旗舰模型	通义千问-Max 适合复杂任务，能力最强	通义千问-Plus 效果、速度、成本均衡	通义千问-Turbo 适合简单任务，速度快、成本极低	通义千问-Long 适合大规模文本分析，效果与速度均衡、成本较低
最大上下文长度 ^{（Token数）}	32,768	131,072	1,000,000	10,000,000
最低输入价格 ^{（每千Token）}	0.0024元	0.0008元	0.0003元	0.0005元
最低输出价格 ^{（每千Token）}	0.0096元	0.002元	0.0006元	0.002元

关于详细参数以及更多大模型，请查看下方的表格。

模型总览

类别	模型	说明

类别	模型	说明
文本生成	通义千问	通义千问大语言模型：商业版（QwQ、通义千问-Max、通义千问-Plus、通义千问-Turbo）、开源版（QwQ、Qwen2.5、Qwen2、Qwen1.5、Qwen）、超长文档模型通义千问-Long 多模态模型：视觉理解模型通义千问VL、音频理解模型通义千问Audio、全模态模型通义千问Omni 数学模型：通义千问数学模型代码模型：通义千问Coder 翻译模型：通义千问翻译模型
文本生成	第三方模型	DeepSeek、Llama、百川、ChatGLM、零一万物等。
图像生成	通义万相	可生成图像或编辑图像，适用于生成证件照、电商主图、模特图、各种风格人像图（动漫、国风、二次元等），也可用于抠图、生成背景、更改图片元素等。
图像生成	第三方模型	Stable Diffusion和FLUX。
语音合成与识别	语音合成	CosyVoice和Sambert可实现文本转语音，适用于智能语音客服、有声读物、车载导航、教育辅导等场景。
语音合成与识别	语音识别/翻译	Gummy、Paraformer和SenseVoice可实现语音转文本，适用于实时会议记录、实时直播字幕、电话客服等场景。此外，Gummy还支持语音翻译。
视频编辑与生成	文生视频	文生视频：一句话生成视频，视频风格丰富，画质细腻。
	图生视频	图生视频：将输入图片作为视频首帧，并根据提示词生成视频。图+动作模板生成舞蹈视频：舞动人像AnimateAnyone基于人物图片和动作视频生成舞蹈视频。图+音频生成对口型视频悦动人像EMO基于人物图片和音频，适合唱演场景。灵动人像LivePortrait基于人物图片和音频，适合语音播报场景。图+表情模板生成表情包视频：表情包Emoji基于人脸图片和预设的人脸动态模板，生成人脸表情包视频。
	视频编辑	视频口型替换：声动人像VideoRetalk基于人物视频和音频，适合短视频制作、视频翻译等场景。视频风格转换：视频风格重绘可将视频转换为日式漫画、美式漫画等风格。
向量	文本向量	将文本转换成一组可以代表文字的数字，用于搜索、聚类、推荐、分类等。
向量	多模态向量	将文本、图像、语音转换成一组数字，用于音视频分类、图像分类、图文检索等。
行业	通义法睿	适用于法律咨询、案例分析和法规解读等。
行业	意图理解	意图理解模型能够在毫秒级时间内解析用户意图，并选择合适工具来解决用户问题。

文本生成-通义千问

以下是通义千问模型的商业版。相较于开源版，商业版具有最新的能力和改进。

各模型会不定期更新升级。如需使用固定版本，请选择快照版本。快照版本通常维护至下个快照版本发布时间的后一个月。

QwQ

基于 Qwen2.5 模型训练的 QwQ 推理模型，通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标（AIME 24/25、LiveCodeBench）以及部分通用指标（IFEval、LiveBench等）达到DeepSeek-R1 满血版水平。使用方法

模型名称	版本	上下文长度	最大输入	最大思维链长度	最大回复长度	输入成本	输出成本	免费额度（注）
模型名称	版本	（Token数）				（每千Token）		免费额度（注）

模型名称	版本	上下文长度	最大输入	最大思维链长度	最大回复长度	输入成本	输出成本	免费额度（注）
		（Token数）				（每千Token）
qwq-plus 当前等同 qwq-plus-2025-03-05	稳定版	131,072	98,304	32,768	8,192	0.0016元 Batch调用：0.0008元	0.004元 Batch调用：0.002元	各100万 Token 有效期：百炼开通后180天内
qwq-plus-latest 始终等同最新快照版	最新版					0.0016元	0.004元
qwq-plus-2025-03-05 又称qwq-plus-0305	快照版

通义千问-Max

通义千问系列效果最好的模型，适合复杂、多步骤的任务。使用方法 | API参考 | 在线体验

公共云

金融云

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每千Token）
qwen-max 当前等同qwen-max-2024-09-19	稳定版	32,768	30,720	8,192	0.0024元 Batch调用：0.0012元	0.0096元 Batch调用：0.0048元	各100万Token 有效期：百炼开通后180天内
qwen-max-latest 始终等同最新快照版	最新版
qwen-max-2025-01-25 又称qwen-max-0125、Qwen2.5-Max	快照版				0.0024元	0.0096元
qwen-max-2024-09-19 又称qwen-max-0919					0.02元	0.06元
qwen-max-2024-04-28 又称qwen-max-0428		8,000	6,000	2,000	0.04元	0.12元
qwen-max-2024-04-03 又称qwen-max-0403
qwen-max-2024-01-07 又称qwen-max-0107

最新的qwen-max-0125模型：通义千问系列效果最好的模型，代码编写与理解能力、逻辑能力、多语言能力显著提升，回复风格面向人类偏好进行大幅调整，模型回复详实程度和格式清晰度明显改善，内容创作、JSON格式遵循、角色扮演能力定向提升。

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

（Token数）

（每千Token）

qwen-max

稳定版

8,000

6,000

2,000

0.038元

Batch调用：0.019元

0.114元

Batch调用：0.057元

100万Token

有效期：百炼开通后180天内

通义千问-Plus

能力均衡，推理效果、成本和速度介于通义千问-Max和通义千问-Turbo之间，适合中等复杂任务。使用方法 | API参考 | 在线体验

公共云

金融云

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每千Token）
qwen-plus 当前等同qwen-plus-2025-01-25	稳定版	131,072	129,024	8,192	0.0008元 Batch调用：0.0004元	0.002元 Batch调用：0.001元	各100万Token 有效期：百炼开通后180天内
qwen-plus-latest 始终等同最新快照版	最新版
qwen-plus-2025-01-25 又称qwen-plus-0125	快照版				0.0008元	0.002元
qwen-plus-2025-01-12 又称qwen-plus-0112
qwen-plus-2024-12-20 又称qwen-plus-1220
qwen-plus-2024-11-27 又称qwen-plus-1127
qwen-plus-2024-11-25 又称qwen-plus-1125
qwen-plus-2024-09-19 又称qwen-plus-0919
qwen-plus-2024-08-06 又称qwen-plus-0806			128,000		0.004元	0.012元
qwen-plus-2024-07-23 又称qwen-plus-0723		32,000	30,000	8,000
qwen-plus-2024-06-24 又称qwen-plus-0624
qwen-plus-2024-02-06 又称qwen-plus-0206

最新的qwen-plus-2025-01-25模型：相对于qwen-plus-2025-01-12版本，整体中英文能力都有综合能力升级，中英文code能力、逻辑能力、多语言能力显著提升，回复风格面向人类偏好进行大幅调整，尤其是数学、逻辑推理、知识问答等客观类query，模型回复详实程度和格式清晰度明显改善，创作类专项、JSON格式遵循专项、角色扮演专项能力均定向提升。

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

（Token数）

（每千Token）

qwen-plus

稳定版

131,072

128,000

8,192

0.00152元

Batch调用：0.00076元

0.0038元

Batch调用：0.0019元

100万Token

有效期：百炼开通后180天内

通义千问-Turbo

通义千问系列速度最快、成本极低的模型，适合简单任务。使用方法 | API参考 | 在线体验

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
模型名称	版本	（Token数）			（每千Token）		免费额度（注）

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每千Token）
qwen-turbo 当前等同 qwen-turbo-2025-02-11	稳定版	1,000,000	1,000,000	8,192	0.0003元 Batch调用：0.00015元	0.0006元 Batch调用：0.0003元	各100万Token 有效期：百炼开通后180天内
qwen-turbo-latest 始终等同最新快照版	最新版
qwen-turbo-2025-02-11 又称qwen-turbo-0211	快照版				0.0003元	0.0006元
qwen-turbo-2024-11-01 又称qwen-turbo-1101							1000万Token 有效期：百炼开通后180天内
qwen-turbo-2024-09-19 又称qwen-turbo-0919		131,072	129,024				各100万Token 有效期：百炼开通后180天内
qwen-turbo-2024-06-24 又称qwen-turbo-0624		8,000	6,000	2,000	0.002元	0.006元
qwen-turbo-2024-02-06 又称qwen-turbo-0206

通义千问-Long

通义千问系列上下文窗口最长，能力均衡且成本较低的模型，适合长文本分析、信息抽取、总结摘要和分类打标等任务。使用方法 | 在线体验

公共云

金融云

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每千Token）
qwen-long	稳定版	10,000,000	10,000,000	8,192	0.0005元 Batch调用：0.00025元	0.002元 Batch调用：0.001元	100万Token 有效期：百炼开通后180天内
qwen-long-latest 始终等同最新快照版	最新版
qwen-long-2025-01-25 又称qwen-long-0125	快照版				0.0005元	0.002元

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

（注）

（Token数）

（每千Token）

qwen-long

10,000,000

8,192

0.0005元

Batch调用：0.00025元

0.002元

Batch调用：0.001元

100万Token

有效期：百炼开通后180天内

通义千问Omni

通义千问全新多模态理解生成大模型，支持文本、图像、语音与视频输入，并输出文本与音频，提供了4种自然对话音色。使用方法｜API 参考

模型名称	版本	上下文长度	最大输入	最大输出	免费额度（注）
模型名称	版本	（Token数）			免费额度（注）

模型名称	版本	上下文长度	最大输入	最大输出	免费额度（注）
		（Token数）
qwen-omni-turbo 当前等同qwen-omni-turbo-2025-03-26	稳定版	32,768	30,720	2,048	各100万Token（不区分模态）有效期：百炼开通后180天内
qwen-omni-turbo-latest 始终等同最新快照版	最新版
qwen-omni-turbo-2025-03-26 又称qwen-omni-turbo-0326	快照版
qwen-omni-turbo-2025-01-19 又称qwen-omni-turbo-0119

免费额度用完后，输入与输出的计费规则如下：

稳定版模型qwen-omni-turbo支持Batch调用，费用为以下价格的50%。注：Batch调用不支持抵扣免费额度。

输入计费项	单价（每千 Token）
输入：文本	0.0004元
输入：音频	0.025元
输入：图片/视频	0.0015元

输出计费项

单价（每千 Token）

输出：文本

0.0016元（输入仅包含文本时）

0.0045元（输入包含图片/音频/视频时）

输出：文本+音频

0.05元（音频）

输出的文本不计费。

计费示例：某次请求输入了1000 Token 的文本和1000 Token 的图片，输出了1000 Token 的文本和1000 Token 的音频，则该请求花费：0.0004元（文本输入）+ 0.0015元（图片输入）+ 0.05元（音频输出）= 0.0519元。在Batch调用模式下，该请求花费按50%计收，为0.02595元。

QVQ

通义千问QVQ是视觉推理模型，支持视觉输入及思维链输出，在数学、编程、视觉分析、创作以及通用任务上都表现了更强的能力。使用方法

模型名称	版本	上下文长度	最大输入	最大思维链长度	最大回复长度	输入成本	输出成本	免费额度（注）
模型名称	版本	（Token数）				（每千Token）		免费额度（注）

模型名称	版本	上下文长度	最大输入	最大思维链长度	最大回复长度	输入成本	输出成本	免费额度（注）
		（Token数）				（每千Token）
qvq-max 当前等同 qvq-max-2025-03-25	稳定版	122,880	98,304 单图最大16384	16,384	8,192	0.008元	0.032元	各100万 Token 有效期：百炼开通后180天内
qvq-max-latest 始终等同最新快照版	最新版
qvq-max-2025-03-25 又称qvq-max-0325	快照版

通义千问VL

通义千问VL是具有视觉（图像）理解能力的文本生成模型，不仅能进行OCR（图片文字识别），还能进一步总结和推理，例如从商品照片中提取属性，根据习题图进行解题等。使用方法 | API参考 | 在线体验

通义千问VL模型按输入和输出的总Token数进行计费。

图像Token的计算规则：每28x28像素对应一个Token，一张图最少需要4个Token。详细计算规则请参见视觉理解。

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
模型名称	版本	（Token数）			（每千Token）		免费额度（注）

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每千Token）
qwen-vl-max 相比qwen-vl-plus再次提升视觉推理和指令遵循能力，在更多复杂任务中提供最佳性能。当前等同qwen-vl-max-2024-11-19	稳定版	32,768	30,720 单图最大16384	2,048	0.003元 Batch调用：0.0015元	0.009元 Batch调用：0.0045元	各100万Token 有效期：百炼开通后180天内
qwen-vl-max-latest 始终等同最新快照版	最新版	131,072	129,024 单图最大16384	8,192
qwen-vl-max-2025-01-25 又称qwen-vl-max-0125 此版本属于Qwen2.5-VL系列模型，扩展上下文至128k，显著增强图像和视频的理解能力。	快照版				0.003元	0.009元
qwen-vl-max-2024-12-30 又称qwen-vl-max-1230		32,768	30,720 单图最大16384	2,048
qwen-vl-max-2024-11-19 又称qwen-vl-max-1119
qwen-vl-max-2024-10-30 又称qwen-vl-max-1030					0.02元
qwen-vl-max-2024-08-09 又称qwen-vl-max-0809 此版本扩展上下文至32k，增强图像理解能力，能更好地识别图片中的多语种和手写体。
qwen-vl-max-2024-02-01 又称qwen-vl-max-0201		8,000	6,000 单图最大1280	2,000
qwen-vl-plus 大幅提升细节识别和文字识别能力，支持超百万像素分辨率和任意宽高比的图像。在广泛的视觉任务中提供卓越性能。	稳定版	8,000	6,000 单图最大1280		0.0015元 Batch调用：0.00075元	0.0045元 Batch调用：0.00225元
qwen-vl-plus-latest 始终等同最新快照版	最新版	131,072	129,024 单图最大16384	8,192	0.0015元	0.0045元
qwen-vl-plus-2025-01-25 又称qwen-vl-plus-0125 此版本属于Qwen2.5-VL系列模型，扩展上下文至128k，显著增强图像和视频的理解能力。	快照版
qwen-vl-plus-2025-01-02 又称qwen-vl-plus-0102		32,768	30,720 单图最大16384	2,048
qwen-vl-plus-2024-08-09 又称qwen-vl-plus-0809
qwen-vl-plus-2023-12-01		8,000	6,000	2,000	0.008元

通义千问OCR

通义千问OCR模型是专用于文字提取的模型。相较于通义千问VL模型，它更专注于文档、表格、试题、手写体文字等类型图像的文字提取能力。它能够识别多种语言，包括英语、法语、日语、韩语、德语、俄语和意大利语等。使用方法 | API参考｜在线体验

模型名称	版本	上下文长度	最大输入	最大输出	输入输出单价	免费额度（注）
模型名称	版本	（Token数）			（每千Token）	免费额度（注）

模型名称	版本	上下文长度	最大输入	最大输出	输入输出单价	免费额度（注）
		（Token数）			（每千Token）
qwen-vl-ocr 当前等同qwen-vl-ocr-2024-10-28	稳定版	34096	30000 单图最大30000	4096	0.005元	各100万Token 有效期：百炼开通后180天内
qwen-vl-ocr-latest 始终等同最新快照版	最新版
qwen-vl-ocr-2024-10-28 又称qwen-vl-ocr-1028	快照版

通义千问Audio

通义千问Audio是音频理解模型，支持输入多种音频（人类语音、自然音、音乐、歌声）和文本，并输出文本。该模型不仅能对输入的音频进行转录，还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。使用方法

通义千问Audio模型按输入和输出的总Token数进行计费。

音频转换为Token的规则：每一秒钟的音频对应25个Token。若音频时长不足1秒，则按25个Token计算。

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
模型名称	版本	（Token数）			（每千Token）		免费额度（注）

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每千Token）
qwen-audio-turbo 当前等同qwen-audio-turbo-2024-08-07	稳定版	8,000	6,000	1,500	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。		各10万Token 有效期：百炼开通后180天内
qwen-audio-turbo-latest 始终等同最新快照版	最新版	8,192	6,144	2,048
qwen-audio-turbo-2024-12-04 又称qwen-audio-turbo-1204 较上个快照版本大幅提升语音识别准确率，且新增了语音聊天能力。	快照版
qwen-audio-turbo-2024-08-07 又称qwen-audio-turbo-0807		8,000	6,000	1,500

通义千问ASR（Beta版本）

通义千问ASR是基于Qwen-Audio训练，专用于语音识别的模型。目前支持的语言有：中文和英文。使用方法

通义千问Audio与通义千问ASR（Beta版本）的区别

功能对比：
- 通义千问Audio模型是对话模型，不仅能够进行语音识别，还具备更深层次的语义理解、语音聊天等能力，支持设置提示词。
- 通义千问ASR模型是专用于语音识别的模型，不支持设置提示词（包括System Prompt和User Prompt）。
准确率对比：
- 在语音识别准确率上，通义千问ASR模型高于通义千问Audio模型。
音频时长对比：
- 通义千问Audio模型：30秒内。
- 通义千问ASR模型：3分钟以内。
支持识别的语言对比：
- 通义千问Audio模型：中文、英文、粤语、法语、意大利语、西班牙语、德语和日语。
- 通义千问ASR模型：中文、英文。目前通义千问ASR是Beta版本，后续版本中将会陆续支持更多语言的识别。

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
模型名称	版本	（Token数）			（每千Token）		免费额度（注）

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每千Token）
qwen-audio-asr 当前等同qwen-audio-asr-2024-12-04	稳定版	8,192	6,144	2,048	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。		各10万Token 有效期：百炼开通后180天内
qwen-audio-asr-latest 始终等同最新快照版	最新版
qwen-audio-asr-2024-12-04 又称qwen-audio-asr-1204	快照版

通义千问数学模型

通义千问数学模型是专门用于数学解题的语言模型。使用方法 | API参考 | 在线体验

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
模型名称	版本	（Token数）			（每千Token）		免费额度（注）

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每千Token）
qwen-math-plus 当前等同qwen-math-plus-2024-09-19	稳定版	4,096	3,072	3,072	0.004元	0.012元	各100万Token 有效期：百炼开通后180天内
qwen-math-plus-latest 始终等同最新快照版	最新版
qwen-math-plus-2024-09-19 又称qwen-math-plus-0919	快照版
qwen-math-plus-2024-08-16 又称qwen-math-plus-0816
qwen-math-turbo 当前等同qwen-math-turbo-2024-09-19	稳定版				0.002元	0.006元
qwen-math-turbo-latest 始终等同最新快照版	最新版
qwen-math-turbo-2024-09-19 又称qwen-math-turbo-0919	快照版

通义千问Coder

通义千问代码模型。使用方法 | API参考 | 在线体验

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
模型名称	版本	（Token数）			（每千Token）		免费额度（注）

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每千Token）
qwen-coder-plus 当前等同qwen-coder-plus-2024-11-06	稳定版	131,072	129,024	8,192	0.0035元	0.007元	各100万Token 有效期：百炼开通后180天内
qwen-coder-plus-latest 等同qwen-coder-plus最新的快照版本	最新版
qwen-coder-plus-2024-11-06 又称qwen-coder-plus-1106	快照版
qwen-coder-turbo 当前等同qwen-coder-turbo-2024-09-19	稳定版	131,072	129,024	8,192	0.002元	0.006元
qwen-coder-turbo-latest 等同qwen-coder-turbo最新的快照版本	最新版
qwen-coder-turbo-2024-09-19 又称qwen-coder-turbo-0919	快照版

通义千问翻译模型

基于通义千问模型优化的机器翻译大语言模型，擅长中英互译、中文与小语种互译、英文与小语种互译，小语种包括日、韩、法、西、德、葡（巴西）、泰、印尼、越、阿等26种。在多语言互译的基础上，提供术语干预、领域提示、记忆库等能力，提升模型在复杂应用场景下的翻译效果。使用方法

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
模型名称	（Token数）			（每千Token）		免费额度（注）

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每千Token）
qwen-mt-plus	2,048	1,024	1,024	0.015元	0.045元	各50万Token 有效期：百炼开通后180天内
qwen-mt-turbo				0.001元	0.003元

文本生成-通义千问-开源版

模型名称中，xxb表示参数规模，例如qwen2-72b-instruct表示参数规模为72B，即720亿。
百炼支持调用通义千问的开源版，您无需本地部署模型。对于开源版，建议使用Qwen2.5或Qwen2模型。

QwQ-开源版

基于 Qwen2.5-32B 模型训练的 QwQ 推理模型，通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标（AIME 24/25、LiveCodeBench）以及部分通用指标（IFEval、LiveBench等）达到DeepSeek-R1 满血版水平，各指标均显著超过同样基于 Qwen2.5-32B 的 DeepSeek-R1-Distill-Qwen-32B。使用方法

模型名称	上下文长度	最大输入	最大思维链长度	最大回复长度	输入成本	输出成本	免费额度（注）
模型名称	（Token数）				（每千Token）		免费额度（注）

模型名称

上下文长度

最大输入

最大思维链长度

最大回复长度

输入成本

输出成本

免费额度

（注）

（Token数）

（每千Token）

qwq-32b

131,072

98,304

32,768

8,192

0.002元

0.006元

100万 Token

有效期：百炼开通后180天内

QwQ-Preview

qwq-32b-preview 模型是由 Qwen 团队于2024年开发的实验性研究模型，专注于增强 AI 推理能力，尤其是数学和编程领域。qwq-32b-preview 模型的局限性请参见QwQ官方博客。使用方法 | API参考｜在线体验

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
模型名称	（Token数）			（每千Token）		免费额度（注）

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

（注）

（Token数）

（每千Token）

qwq-32b-preview

32,768

30,720

16,384

0.002元

Batch调用：0.001元

0.006元

Batch调用：0.003元

100万Token

有效期：百炼开通后180天内

Qwen2.5

Qwen2.5是Qwen大型语言模型的最新系列。针对Qwen2.5，我们发布了一系列基础语言模型和指令调优语言模型，参数规模从5亿到720亿不等。Qwen2.5在Qwen2基础上进行了以下改进：

在我们最新的大规模数据集上进行预训练，包含多达18万亿个Token。
由于我们在这些领域的专业专家模型，模型的知识显著增多，编码和数学能力也大幅提高。
在遵循指令、生成长文本（超过8K个标记）、理解结构化数据（例如表格）和生成结构化输出（尤其是JSON）方面有显著改进。对系统提示的多样性更具弹性，增强了聊天机器人的角色扮演实现和条件设置。
支持超过29种语言，包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。

使用方法 | API参考 | 在线体验

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
模型名称	（Token数）			（每千Token）		免费额度（注）

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每千Token）
qwen2.5-14b-instruct-1m	1,000,000	1,000,000	8,192	0.001元	0.003元	各100万Token 有效期：百炼开通后180天内
qwen2.5-7b-instruct-1m				0.0005元	0.001元
qwen2.5-72b-instruct	131,072	129,024		0.004元	0.012元
qwen2.5-32b-instruct				0.002元	0.006元
qwen2.5-14b-instruct				0.001元	0.003元
qwen2.5-7b-instruct				0.0005元	0.001元
qwen2.5-3b-instruct	32,768	30,720		0.0003元	0.0009元
qwen2.5-1.5b-instruct				限时免费
qwen2.5-0.5b-instruct

Qwen2

阿里云的通义千问2-开源版。使用方法 | API参考 | 在线体验

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
模型名称	（Token数）			（每千Token）		免费额度（注）

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
模型名称	（Token数）			（每千Token）		免费额度（注）
qwen2-72b-instruct	131,072	128,000	6,144	0.004元	0.012元	各100万Token 有效期：百炼开通后180天内
qwen2-57b-a14b-instruct	65,536	63,488		0.0035元	0.007元
qwen2-7b-instruct	131,072	128,000		0.001元	0.002元
qwen2-1.5b-instruct	32,768	30,720		限时免费
qwen2-0.5b-instruct	32,768	30,720		限时免费

Qwen1.5

阿里云的通义千问1.5-开源版。使用方法 | API参考 | 在线体验

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
模型名称	（Token数）			（每千Token）		免费额度（注）

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每千Token）
qwen1.5-110b-chat	32,000	30,000	8,000	0.007元	0.014元	各100万Token 有效期：百炼开通后180天内
qwen1.5-72b-chat			2,000	0.005元	0.01元
qwen1.5-32b-chat				0.0035元	0.007元
qwen1.5-14b-chat	8,000	6,000		0.002元	0.004元
qwen1.5-7b-chat				0.001元	0.002元
qwen1.5-1.8b-chat	32,000	30,000		限时免费
qwen1.5-0.5b-chat

Qwen

阿里云的通义千问-开源版。使用方法 | API参考 | 在线体验

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
模型名称	（Token数）			（每千Token）		免费额度（注）

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
模型名称	（Token数）			（每千Token）		免费额度（注）
qwen-72b-chat	32,000	30,000	2,000	0.02元	0.02元	各100万Token 有效期：百炼开通后180天内
qwen-14b-chat	8,000	6,000	2,000	0.008元	0.008元
qwen-7b-chat	7,500		1,500	0.006元	0.006元
qwen-1.8b-chat	8,000		2,000	限时免费
qwen-1.8b-longcontext-chat	32,000	30,000	2,000	限时免费（需申请）

QVQ

qvq-72b-preview模型是由 Qwen 团队开发的实验性研究模型，专注于提升视觉推理能力，尤其在数学推理领域。qvq-72b-preview模型的局限性请参见QVQ官方博客。使用方法 | API参考

如果希望模型先输出思考过程再输出回答内容，请使用商业版模型QVQ。

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
模型名称	（Token数）			（每千Token）		免费额度（注）

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

（注）

（Token数）

（每千Token）

qvq-72b-preview

32,768

16,384

单图最大16384

16,384

0.012元

0.036元

10万Token

有效期：百炼开通后180天内

Qwen-Omni

基于Qwen2.5训练的全新多模态理解生成大模型，支持文本、图像、语音、视频输入理解，具备文本和语音同时流式生成的能力，多模态内容理解速度显著提升。使用方法｜API 参考

模型名称	上下文长度	最大输入	最大输出	免费额度（注）
模型名称	（Token数）			免费额度（注）

模型名称

上下文长度

最大输入

最大输出

免费额度

（注）

（Token数）

qwen2.5-omni-7b

32,768

30,720

2,048

100万Token（不区分模态）

有效期：百炼开通后180天内

开源版模型的免费额度用完后，输入与输出的计费规则如下：

输入计费项	单价（每千 Token）
输入：文本	0.0006元
输入：音频	0.038元
输入：图片/视频	0.002元

输出计费项

单价（每千 Token）

输出：文本

0.0024元（输入仅包含文本时）

0.006元（输入包含图片/音频/视频时）

输出：文本+音频

0.076元（音频）

输出的文本不计费。

计费示例：某次请求输入了1000 Token 的文本和1000 Token 的图片，输出了1000 Token 的文本和1000 Token 的音频，则该请求花费：0.0006元（文本输入）+ 0.002元（图片输入）+ 0.076元（音频输出）= 0.0786元。

Qwen-VL

阿里云的通义千问VL开源版。使用方法 | API参考

其中，Qwen2.5-VL在Qwen2-VL的基础上做了如下改进：

感知更丰富的世界：Qwen2.5-VL不仅擅长识别常见物体，如花、鸟、鱼和昆虫等，还能分析图像中的文本、图表、图标、图形和布局等。
长视频理解能力：支持对长视频文件（最长10分钟）进行理解，具备通过精准定位相关视频片段来捕捉事件的新能力
视觉定位：Qwen2.5-VL可通过生成bounding box（矩形框的左上角和右下角坐标）或者point（矩形框的中心点坐标）来准确定位图像中的物体，并能够为坐标和属性提供稳定的JSON输出。
结构化输出：可支持对发票、表单、表格等数据进行结构化输出，惠及金融、商业等领域的应用。

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
模型名称	（Token数）			（每千Token）		免费额度（注）

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每千Token）
qwen2.5-vl-72b-instruct	131,072	129,024 单图最大16384	8,192	0.016元	0.048元	各100万Token 有效期：百炼开通后180天内
qwen2.5-vl-32b-instruct				0.008元	0.024元
qwen2.5-vl-7b-instruct				0.002元	0.005元
qwen2.5-vl-3b-instruct				0.0012元	0.0036元
qwen2-vl-72b-instruct	32,768	30,720 单图最大16384	2,048	0.016元	0.048元
qwen2-vl-7b-instruct	32,000	30,000 单图最大16384	2,000	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。		各10万Token 有效期：百炼开通后180天内
qwen2-vl-2b-instruct				限时免费
qwen-vl-v1	8,000	6,000 单图最大1280	1,500	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。
qwen-vl-chat-v1

Qwen-Audio

阿里云的通义千问Audio开源版。使用方法

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
模型名称	（Token数）			（每千Token）		免费额度（注）

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每千Token）
qwen2-audio-instruct 相比qwen-audio-chat提升了音频理解能力，且新增了语音聊天能力。	8,000	6,000	1,500	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。		各10万Token 有效期：百炼开通后180天内
qwen-audio-chat

Qwen-Math

基于Qwen模型构建的专门用于数学解题的语言模型。Qwen2.5-Math相比Qwen2-Math有了实质性的改进。Qwen2.5-Math支持中文和英文，并整合了多种推理方法，包括CoT（Chain of Thought）、PoT（Program of Thought）和 TIR（Tool-Integrated Reasoning）。使用方法 | API参考| 在线体验

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
模型名称	（Token数）			（每千Token）		免费额度（注）

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每千Token）
qwen2.5-math-72b-instruct	4,096	3,072	3,072	0.004元	0.012元	各100万Token 有效期：百炼开通后180天内
qwen2.5-math-7b-instruct				0.001元	0.002元
qwen2.5-math-1.5b-instruct				限时免费体验
qwen2-math-72b-instruct				0.004元	0.012元	各100万Token 有效期：百炼开通后180天内
qwen2-math-7b-instruct				0.001元	0.002元
qwen2-math-1.5b-instruct				限时免费体验

Qwen-Coder

通义千问代码模型开源版。Qwen2.5-Coder相比CodeQwen1.5有了实质性的改进。Qwen2.5-Coder在包含5.5万亿Token的编程相关数据上进行了训练，使即使较小的编程专用模型也能在编程评估基准测试中表现出媲美大型语言模型的竞争力。API参考 | 在线体验

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
模型名称	（Token数）			（每千Token）		免费额度（注）

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每千Token）
qwen2.5-coder-32b-instruct	131,072	129,024	8,192	0.002元	0.006元	各100万Token 有效期：百炼开通后180天内
qwen2.5-coder-14b-instruct
qwen2.5-coder-7b-instruct				0.001元	0.002元
qwen2.5-coder-3b-instruct	32,768	30,720		限时免费体验
qwen2.5-coder-1.5b-instruct
qwen2.5-coder-0.5b-instruct

文本生成-第三方模型

DeepSeek

DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力，尤其在数学、代码、自然语言推理等任务上；DeepSeek-V3 为 MoE 模型，671B 参数，激活 37B，在 14.8T token 上进行了预训练，在长文本、代码、数学、百科、中文能力上表现优秀。API参考

模型名称	上下文长度	最大输入	最大思维链长度	最大回复长度	输入成本	输出成本	免费额度查看剩余额度
模型名称	（Token数）				（每千Token）		免费额度查看剩余额度

模型名称	上下文长度	最大输入	最大思维链长度	最大回复长度	输入成本	输出成本	免费额度查看剩余额度
	（Token数）				（每千Token）
deepseek-r1 671B 满血版模型	65,792	57,344	32,768	8,192	0.004元 Batch调用：0.002元	0.016元 Batch调用：0.008元	各100万Token 有效期：百炼开通后180天内
deepseek-v3 参数量为 671B			不涉及		0.002元 Batch调用：0.001元	0.008元 Batch调用：0.004元
deepseek-r1-distill-qwen-1.5b 基于 Qwen2.5-Math-1.5B	32,768	32,768	16,384	16,384	限时免费体验
deepseek-r1-distill-qwen-7b 基于 Qwen2.5-Math-7B					0.0005元	0.001元	各100万Token 有效期：百炼开通后180天内
deepseek-r1-distill-qwen-14b 基于 Qwen2.5-14B					0.001元	0.003元
deepseek-r1-distill-qwen-32b 基于 Qwen2.5-32B					0.002元	0.006元
deepseek-r1-distill-llama-8b 基于 Llama-3.1-8B					限时免费体验
deepseek-r1-distill-llama-70b 基于 Llama-3.3-70B

Llama-仅文本输入

Meta推出的大语言模型，下列模型只支持输入文本。API参考 | 在线体验（需申请）

模型名称	上下文长度	最大输入	输入输出成本	免费额度（注）
模型名称	（Token数）		输入输出成本	免费额度（注）

模型名称	上下文长度	最大输入	输入输出成本	免费额度（注）
	（Token数）
llama3.3-70b-instruct	32,000	30,000	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。	各100万Token（需申请）有效期：百炼开通后180天内。
llama3.2-3b-instruct
llama3.2-1b-instruct
llama3.1-405b-instruct
llama3.1-70b-instruct
llama3.1-8b-instruct
llama3-70b-instruct	8,000	8,000
llama3-8b-instruct
llama2-13b-chat-v2	4,000	4,000
llama2-7b-chat-v2

Llama-文本和图像输入

Meta推出的大语言模型，下列模型支持输入文本和图像。API参考 | 在线体验（需申请）

模型名称	上下文长度	输入输出成本	免费额度（注）
模型名称	（Token数）	输入输出成本	免费额度（注）

模型名称	上下文长度	输入输出成本	免费额度（注）
	（Token数）
llama3.2-90b-vision-instruct	8192	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。	各100万Token（需申请）有效期：百炼开通后180天内。
llama3.2-11b-vision

百川

百川智能推出的大语言模型。API参考 | 在线体验（需申请）

模型名称	上下文长度	最大输入	输入成本	输出成本	免费额度（注）
模型名称	（Token数）		（每千Token）		免费额度（注）

模型名称

上下文长度

最大输入

输入成本

输出成本

免费额度

（注）

（Token数）

（每千Token）

baichuan2-turbo

32,000

目前仅供免费体验。

免费额度用完后不可调用，敬请关注后续动态。

100万Token（需申请）

有效期：申请通过后180天内

百川-开源版

来自百川智能，该系列模型在平台中支持微调训练。API参考 | 在线体验（需申请）

模型名称	上下文长度	最大输入	输入成本	输出成本	免费额度（注）
模型名称	（Token数）		（每千Token）		免费额度（注）

模型名称	上下文长度	最大输入	输入成本	输出成本	免费额度（注）
	（Token数）		（每千Token）
baichuan2-13b-chat-v1	4096	4096	0.008元	0.008元	各100万Token（需申请）有效期：百炼开通后180天内
baichuan2-7b-chat-v1			0.006元	0.006元
baichuan-7b-v1			目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。

ChatGLM

智谱AI推出的大语言模型。API参考 | 在线体验

模型名称	上下文长度	最大输入	输入成本	输出成本	免费额度（注）
模型名称	（Token数）		（每千Token）		免费额度（注）

模型名称	上下文长度	最大输入	输入成本	输出成本	免费额度（注）
	（Token数）		（每千Token）
chatglm3-6b	7500	7500	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。		各100万Token 有效期：百炼开通后180天内
chatglm-6b-v2	6500	6500	0.006元	0.006元

零一万物

零一万物推出的大语言模型。API参考 | 在线体验（需申请）

模型名称	上下文长度	最大输入	输入输出成本	免费额度（注）
模型名称	（Token数）		输入输出成本	免费额度（注）

模型名称	上下文长度	最大输入	输入输出成本	免费额度（注）
	（Token数）
yi-large	32,000	32,000	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。	各100万Token（需申请）有效期：申请通过后180天内
yi-medium
yi-large-rag 有实时联网能力	16,000	16,000
yi-large-turbo

MiniMax

MiniMax推出的大语言模型。API参考 | 在线体验（需申请）

模型名称	说明	上下文长度	最大输入	输入输出成本	免费额度（注）
模型名称	说明	（Token数）		输入输出成本	免费额度（注）

模型名称	说明	上下文长度	最大输入	输入输出成本	免费额度（注）
		（Token数）
abab6.5g-chat	适合英文场景	8,000	8,000	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。	各100万Token（需申请）有效期：申请通过后180天内
abab6.5t-chat	适合中文场景
abab6.5s-chat	适合超长文本场景	245,000	245,000

姜子牙

IDEA研究院推出的大语言模型。API参考

模型名称	输入输出成本

模型名称	输入输出成本
ziya-llama-13b-v1	限时免费（需申请）

BELLE

BELLE推出的大语言模型。API参考

模型名称	输入输出成本

模型名称	输入输出成本
belle-llama-13b-2m-v1	限时免费（需申请）

元语

元语智能推出的大语言模型。API参考

模型名称	输入输出成本

模型名称	输入输出成本
chatyuan-large-v2	限时免费（需申请）

BiLLa

BiLLa是开源的推理能力增强的中英双语LLaMA模型，较大提升LLaMA的中文理解能力, 并尽可能减少对原始LLaMA英文能力的损伤。API参考

模型名称	输入输出成本

模型名称	输入输出成本
billa-7b-sft-v1	限时免费（需申请）

图像生成-通义万相与图像编辑

文生图

文生图V2版

文生图V2系列模型是全面升级的文生图模型，您可以选择V2系列模型进行文生图创作。API参考｜在线体验

模型名称	说明	单价	免费额度（注）

模型名称	说明	单价	免费额度（注）
wanx2.1-t2i-plus	生成图像细节更丰富，速度较慢。对应通义万相官网2.1专业模型。	0.20元/张	各500张有效期：百炼开通后180天内
wanx2.1-t2i-turbo	生成速度快、效果全面、性价比高。对应通义万相官网2.1极速模型。	0.14元/张
wanx2.0-t2i-turbo	擅长质感人像，速度中等、成本较低。对应通义万相官网2.0极速模型。	0.04元/张

wanx2.1-t2i-plus	wanx2.1-t2i-turbo	wanx2.0-t2i-turbo

wanx2.1-t2i-plus	wanx2.1-t2i-turbo	wanx2.0-t2i-turbo
场景1：文字生成能力提示词：生成一张新年祝福贺卡，背景有白雪，放鞭炮的小孩，蛇形成文案2025，并写上HAPPY NEW YEAR。效果对比：wanx2.1模型（plus和turbo）的文字生成能力更强，适合创意设计场景。

场景2：人像生成能力提示词：中国女孩，圆脸，看着镜头，优雅的民族服装，商业摄影，室外，电影级光照，半身特写，精致的淡妆，锐利的边缘。效果对比：wanx2.0模型在质感人像生成方面表现出色，其成本仅为wanx2.1 turbo模型的三分之一，性价比高。

文生图V1版

说明

推荐您使用全面升级的文生图V2版模型。

可以基于输入的文本生成图片。此外，还支持输入参考图片，并参考图片内容或者图片风格进行图片生成。API参考 | 在线体验

模型名称	示例输入	示例输出	单价	免费额度（注）

模型名称

示例输入

示例输出

单价

免费额度（注）

wanx-v1

参考图

提示词：一只小狗在笑

小狗在笑

0.16元/张

500张

有效期：百炼开通后180天内

通用图像编辑

通义万相-通用图像编辑模型通过简单的指令即可实现多样化的图像编辑，适用于扩图、去水印、风格迁移、图像修复、图像美化等场景。API参考

模型名称	计费单价	免费额度

模型名称

计费单价

免费额度

wanx2.1-imageedit

0.14元/张

免费额度：500张

有效期：百炼开通后180天内

目前通用图像编辑支持以下功能：

模型功能	输入图像	输入提示词	输出图像

模型功能	输入图像	输入提示词	输出图像
全局风格化		转换成法国绘本风格
局部风格化		把房子变成木板风格。
局部重绘	输入图像涂抹区域图像（白色为涂抹区域）	一只陶瓷兔子抱着一朵陶瓷花。	输出图像
去文字水印		去除图像中的文字。
扩图		一位绿色仙子。
图像超分	模糊图像	图像超分。	清晰图像
图像上色		蓝色背景，黄色的叶子。
线稿生图		北欧极简风格的客厅。
垫图		卡通形象小心翼翼地探出头，窥视着房间内一颗璀璨的蓝色宝石。

涂鸦作画

基于输入的手绘图加文字描述，即可生成精美的涂鸦绘画作品。API参考

模型名称	示例输入	示例输出	单价	免费额度（注）

模型名称

示例输入

示例输出

单价

免费额度（注）

wanx-sketch-to-image-lite

提示词：一棵参天大树

0.06元/张

500张

有效期：百炼开通后180天内

图像局部重绘

根据用户输入的原始图片和局部涂抹图、prompt提示词文字内容，生成符合语义描述的多样化风格的局部重绘图像。API参考

模型名称	示例输入	示例输出	单价	免费额度（注）

模型名称

示例输入

示例输出

单价

免费额度（注）

wanx-x-painting

布局涂抹图：

提示词：一只狗戴着红色眼镜

目前仅供免费体验。

免费额度用完后不可调用，敬请关注后续动态。

500张

有效期：百炼开通后180天内

人像风格重绘

人像风格重绘可以将输入的人物图像进行多种风格化的重绘生成，使新生成的图像在兼顾原始人物相貌的同时，带来不同风格的绘画效果。API参考

模型名称	示例输入	示例输出	单价	免费额度（注）

模型名称

示例输入

示例输出

单价

免费额度（注）

wanx-style-repaint-v1

风格：清雅国风

0.12元/张

500张

有效期：百炼开通后180天内

图像背景生成

图像背景生成可以基于输入的前景图像素材拓展生成背景信息，实现自然的光影融合效果，与细腻的写实画面生成。支持文本描述、图像引导等多种方式，同时支持对生成的图像智能添加文字内容。API参考

模型名称	示例输入	示例输出	单价	免费额度（注）

模型名称

示例输入

示例输出

单价

免费额度（注）

wanx-background-generation-v2

提示词：在桌面上，旁边有插着花朵的花瓶，背后是纯色高级的背景墙。

0.08元/张

500张

有效期：百炼开通后180天内

图像画面扩展

图像画面大模型，对输入图像进行画面自由扩展，支持旋转画面，支持按照扩展系数和扩展像素数两种方式进行扩图。用户可以通过指定宽度、高度画面扩展比例或者左、右、上、下的扩展的像素值来控制画面扩展，可用于创意娱乐、辅助作图、画面设计、影视后期制作等场景。API参考

模型名称	示例输入	示例输出	单价	免费额度（注）

模型名称

示例输入

示例输出

单价

免费额度（注）

image-out-painting

目前仅供免费体验。

免费额度用完后不可调用，敬请关注后续动态。

500张

有效期：百炼开通后180天内

人物实例分割

输入人物图像，模型识别出图像中的不同人物对象并画出每个对象边界的像素级掩码。API参考

模型名称	示例输入	示例输出	单价	免费额度（注）

模型名称

示例输入

示例输出

单价

免费额度

（注）

image-instance-segmentation

输出结果1：像素级掩码图像

输出结果2：可视化图像

目前仅供免费体验。

免费额度用完后不可调用，敬请关注后续动态。

500张

有效期：百炼开通后180天内

图像擦除补全

输入图像并指定待擦除区域掩码图像以及保留区域掩码图像，模型在保留原图背景的同时擦除指定图像区域。API参考

针对人物图像的擦除、补全，推荐通过人物实例分割得到图像中不同人物对象的图像掩码，选择完整的人物图像掩码擦除一个或多个人物。

模型名称	示例输入	示例输出	单价	免费额度（注）

模型名称

示例输入

示例输出

单价

免费额度

（注）

image-erase-completion

原图

图片擦除2-原图.png

待擦除区域

图片擦除2-擦除.png

保留区域

图片擦除2-保留.png

目前仅供免费体验。

免费额度用完后不可调用，敬请关注后续动态。

500张

有效期：百炼开通后180天内

动漫人物生成

该模型将于2025年6月正式下线。请您在下线之前及时切换至其他模型（推荐使用人像风格重绘模型），以免影响您的业务。

Cosplay动漫人物生成通过输入人像图片和卡通形象图片，可快速生成人物卡通写真。API参考

模型名称	示例输入	示例输出	单价	免费额度（注）

模型名称

示例输入

示例输出

单价

免费额度（注）

wanx-style-cosplay-v1

人脸图像

模板图像

目前仅供免费体验。

免费额度用完后不可调用，敬请关注后续动态。

300张

有效期：百炼开通后180天内

虚拟模特

可以对上传的真人实拍商品展示图进行智能生成，将其中的模特和背景替换为心仪的内容，在保持人物姿态不变的情况下，使用虚拟模特对商品进行更加精美、多样的展示。支持各种与模特产生互动的商品，如手持小商品、服装、鞋靴、配饰等。API参考

模型名称	版本	模型简介	单价	免费额度（注）

模型名称

版本

模型简介

单价

免费额度（注）

wanx-virtualmodel

支持真人实拍图上传

图片短边：512像素或1024像素

目前仅供免费体验。

免费额度用完后不可调用，敬请关注后续动态。

500张

有效期：百炼开通后180天内

virtualmodel-v2

支持真人、人台实拍图上传
图片短边为：1024像素或2048像素
支持改变图片的长宽比
文本引导效果更准确

输入图	参数配置	输出图

输入图

参数配置

输出图

v1 真人图

"prompt":"一位年轻男性站着摆拍，在空荡的卧室里，窗户旁边，阳光照射进来，highly detailed，8K，极简主义风格"

"face_prompt":"英俊的男性，脸好，脸美，质量上乘，杰作，（逼真度：1.4）"

"predefined_face_id":"boy3"

v1输出

v2人台图

"prompt":"A woman stands beside a luxurious swimming pool, her attire and posture suggesting leisure and relaxation. The pool's calm, crystal-clear waters reflect the surrounding opulent setting, with elegant lounge chairs inviting moments of repose under the sun. Perhaps it's a high-end resort or an upscale private villa, where the tiled pool deck and meticulously landscaped greenery speak of exclusivity and refinement."

"face_prompt":"good face, beautiful face, best quality."

"aspect_ratio":"4:3"

"realPerson":false

v2输出

鞋靴模特

鞋靴模特支持输入多视角鞋靴系列图片，同时对输入模特模板图的鞋子区域进行鞋靴AI试穿，实现模特鞋靴布局重绘生成，最终生成图片的效果，布局自然、细节丰富、画面细腻、试穿结果逼真。可用于模特商品图设计、新鞋AI试穿、模特穿戴布局重绘等场景。API参考

模型名称	示例输入	示例输出	单价	免费额度（注）

模型名称

示例输入

示例输出

单价

免费额度

（注）

shoemodel-v1

目前仅供免费体验。

免费额度用完后不可调用，敬请关注后续动态。

500张

有效期：百炼开通后180天内

创意海报生成

根据您的要求自动生成海报的背景和文字排版，支持多种海报风格。无需设计基础，轻松制作出彩作品，让创意触手可及。API参考

模型名称	示例输入	示例输出	单价	免费额度（注）

模型名称

示例输入

示例输出

单价

免费额度（注）

wanx-poster-generation-v1

"title":"元宵节",

"sub_title":"正月十五",

"body_text":"团圆时节，汤圆香甜，祝你幸福美满！",

"prompt_text_zh":"灯笼，小猫，梅花",

"wh_ratios":"竖版",

"lora_name":"童话油画",

目前仅供免费体验。

免费额度用完后不可调用，敬请关注后续动态。

500张

有效期：百炼开通后180天内

图配文

该模型将于2025年6月正式下线。请您在下线之前及时切换至其他模型（推荐使用创意海报生成模型），以免影响您的业务。

您只要输入背景图和文字，就能将文字排版到图片上，形成一张完整的图文海报。API参考

模型名称	示例输入		示例输出	单价

模型名称

示例输入

示例输出

单价

wanx-ast

"title":"Lorem Ipsum",

"subtitle":"Duis aute irure dolor in reprehenderit",

"text":"VIEW NOW",

"underlay": 1,

"logo":

快速开始生成结果

限时免费

人物写真生成-FaceChain

人物图像检测：对用户上传的人物图像进行检测，判断其中所包含的人脸是否符合Facechain微调所需的标准，检测维度包括人脸数量、大小、角度、光照、清晰度等多维度，支持图像组输入，并返回每张图像对应的检测结果。API参考
人物形象训练：对上传的图像进行模型训练，从而获得该图像中对应人物的resource，基于该resource可以实现人物的写真生成。API参考
人物写真生成：基于人物形象训练已经得到的形象，可以继续通过人物生成写真模型完成该形象的写真生成，支持多种预设风格，包括证件照、商务写真等。API参考

模型名称	说明	示例输入	示例输出	单价	免费额度（注）

模型名称	说明	示例输入	示例输出	单价	免费额度（注）
facechain-facedetect	人物图像检测	风格：商务写真		限时免费	限时免费
facechain-finetune	人物形象训练			2.5元/次	50次有效期：申请通过后180天内
facechain-generation	人物写真生成			0.18元/张	500张有效期：申请通过后180天内

创意文字生成-WordArt锦书

文字纹理生成：可以对输入的文字内容或文字图片进行创意设计，根据提示词内容对文字添加材质和纹理，实现立体凸显或场景融合的效果，生成效果精美、风格多样的艺术字，结合背景可以直接作为文字海报使用。API参考
文字变形：可以对输入的文字边缘轮廓进行创意变形，根据提示词内容进行边缘变化，实现一种字体的更多种创意用法，返回带有文字内容的黑底白色mask图。API参考
百家姓生成：可以输入姓氏文字进行创意设计，支持根据提示词和风格引导图进行自定义设计，同时提供多种精美的预设风格模板，生成图片可以应用于个性社交场景，如作为个人头像、屏幕壁纸、字体表情包等。API参考
该模型将于2025年6月正式下线。请您在下线之前及时切换至其他模型，以免影响您的业务。

模型名称	说明	示例输入	示例输出	单价	免费额度（注）

模型名称	说明	示例输入	示例输出	单价	免费额度（注）
wordart-texture	文字纹理生成	提示词：精美玉石风格类型：立体材质		0.08元/张	各500张有效期：百炼开通后180天内
wordart-semantic	文字变形	文字：桂林山水提示词：山峦叠嶂、漓江蜿蜒、岩石奇秀		0.24元/张
wordart-surnames	百家姓生成	百家姓：沈风格：奇幻楼阁		暂无

AI试衣

AI试衣一款虚拟试衣图片生成模型，基于人像照片及服装图生成穿着后的试衣图片。API参考
AI试衣-图片分割支持对模特图、服饰图进行分割，可用于AI试衣图片的前后处理。API参考
AI试衣-图片精修是对AI试衣生成的效果图进行二次生成，输出还原度更高的精修试衣效果图。API参考

模型名称	说明	示例输入	示例输出	免费额度（注）

模型名称	说明	示例输入	示例输出	免费额度（注）
aitryon	AI试衣			各400张有效期：百炼开通后180天内
aitryon-parsing-v1	AI试衣-图片分割			各400张有效期：百炼开通后180天内
aitryon-refiner	AI试衣-图片精修			100张有效期：百炼开通后180天内

AI试衣计费单价

模型服务	模型名称	计量单价	折扣	阶梯层级

模型服务	模型名称	计量单价	折扣	阶梯层级
AI试衣	aitryon	0.20元/张	无	无
AI试衣-图片分割	aitryon-parsing-v1	0.004元/张	无	无
AI试衣-图片精修	aitryon-refiner	0.30元/张	无	生成数量 ≤ 25张
		0.275元/张	9.2折	25张＜生成数量 ≤ 125张
		0.25元/张	8.4折	125张＜生成数量 ≤ 250张
		0.225元/张	7.5折	250张＜生成数量 ≤ 1250张
		0.2元/张	6.7折	1250张＜生成数量 ≤ 2500张
		0.175元/张	5.8折	2500张＜生成数量 ≤ 2.5万张
		0.15元/张	5折	生成数量＞ 2.5万张

图像生成-第三方模型

Stable Diffusion

API参考

模型名称	说明	单价	免费额度（注）

模型名称	说明	单价	免费额度（注）
stable-diffusion-3.5-large	具有8亿参数的多模态扩散变压器（MMDiT）文本到图像生成模型，具备卓越的图像质量和提示词匹配度，支持生成100万像素的高分辨率图像，且能够在普通消费级硬件上高效运行。相比于v1.5和xl，在图像质量、文本内容生成、复杂提示理解和资源效率方面均有显著提升。	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。	500张有效期：申请通过后180天内
stable-diffusion-3.5-large-turbo	在stable-diffusion-3.5-large的基础上采用对抗性扩散蒸馏（ADD）技术的模型，具备更快的速度。
stable-diffusion-xl	相比v1.5做了重大改进，被认为是当前开源文生图模型的SOTA水准，具体改进包括：unet backbone是之前的3倍；增加了refinement模块用于改善生成图片的质量；更高效的训练技巧等。
stable-diffusion-v1.5	通过clip模型将文本的embedding和图片embedding映射到相同空间，从而通过输入文本并结合unet的稳定扩散预测噪声的能力，生成图片。是一款基础的文生图模型，得到了业界广泛使用。

FLUX

Black Forest Labs的开源文生图模型，尤其擅长生成包含文字、多主体、手部细节的图片。

文生图FLUX | 在线体验

模型名称	说明	单价	免费额度（注）

模型名称	说明	单价	免费额度（注）
flux-merged	结合了flux-dev的深度和flux-schnell的快速执行。	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。	1000张有效期：百炼开通后180天内
flux-dev	开发者版，面向非商业应用，具有与专业版相近的图像质量和指令遵循能力，同时运行效率更高。	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。
flux-schnell	快速版，轻量级模型。	计费方案即将推出。

语音合成（文本转语音）

CosyVoice

CosyVoice是通义实验室依托大规模预训练语言模型，深度融合文本理解和语音生成的新一代生成式语音合成大模型，支持文本至语音的实时流式合成。API参考 | 在线体验

模型名称	单价	免费额度

模型名称

单价

免费额度

cosyvoice-v1

2元/万字符

根据待合成字符数计费（其中1个汉字算2个字符，英文、标点符号、空格均按照1个字符计费）。

每主账号每模型每月2000字符。

音色列表：

模型名称	voice参数	音色	音频试听	适用场景	语言	默认采样率（Hz）	默认音频格式

模型名称	voice参数	音色	音频试听	适用场景	语言	默认采样率（Hz）	默认音频格式
cosyvoice-v1	longxiaochun	龙小淳		语音助手、导航播报、聊天数字人	中文+英文	22050	mp3
cosyvoice-v1	longxiaoxia	龙小夏		语音助手、聊天数字人	中文	22050	mp3
cosyvoice-v1	longxiaocheng	龙小诚		语音助手、导航播报、聊天数字人	中文+英文	22050	mp3
cosyvoice-v1	longxiaobai	龙小白		聊天数字人、有声书、语音助手	中文	22050	mp3
cosyvoice-v1	longlaotie	龙老铁		新闻播报、有声书、语音助手、直播带货、导航播报	中文东北口音	22050	mp3
cosyvoice-v1	longshu	龙书		有声书、语音助手、导航播报、新闻播报、智能客服	中文	22050	mp3
cosyvoice-v1	longshuo	龙硕		语音助手、导航播报、新闻播报、客服催收	中文	22050	mp3
cosyvoice-v1	longjing	龙婧		语音助手、导航播报、新闻播报、客服催收	中文	22050	mp3
cosyvoice-v1	longmiao	龙妙		客服催收、导航播报、有声书、语音助手	中文	22050	mp3
cosyvoice-v1	longyue	龙悦		语音助手、诗词朗诵、有声书朗读、导航播报、新闻播报、客服催收	中文	22050	mp3
cosyvoice-v1	longyuan	龙媛		有声书、语音助手、聊天数字人	中文	22050	mp3
cosyvoice-v1	longfei	龙飞		会议播报、新闻播报、有声书	中文	22050	mp3
cosyvoice-v1	longjielidou	龙杰力豆		新闻播报、有声书、聊天助手	中文+英文	22050	mp3
cosyvoice-v1	longtong	龙彤		有声书、导航播报、聊天数字人	中文	22050	mp3
cosyvoice-v1	longxiang	龙祥		新闻播报、有声书、导航播报	中文	22050	mp3
cosyvoice-v1	loongstella	Stella		语音助手、直播带货、导航播报、客服催收、有声书	中文+英文	22050	mp3
cosyvoice-v1	loongbella	Bella		语音助手、客服催收、新闻播报、导航播报	中文	22050	mp3

Sambert

Sambert语音合成API基于达摩院改良的自回归韵律模型，支持文本至语音的实时流式合成。API参考

模型名称	单价	免费额度

模型名称

单价

免费额度

见下表

1元/万字符

根据待合成字符数计费（其中1个汉字算2个字符，英文、标点符号、空格均按照1个字符计费）。SSML标签内容不计费。

每主账号每模型每月3万字符。

模型（音色）列表：

模型名称	音色	音频试听	时间戳支持	适用场景	特色	语言	默认采样率（Hz）

模型名称	音色	音频试听	时间戳支持	适用场景	特色	语言	默认采样率（Hz）
sambert-zhinan-v1	知楠		是	通用场景	广告男声	中文+英文	48k
sambert-zhiqi-v1	知琪		是	通用场景	温柔女声	中文+英文	48k
sambert-zhichu-v1	知厨		是	新闻播报	舌尖男声	中文+英文	48k
sambert-zhide-v1	知德		是	新闻播报	新闻男声	中文+英文	48k
sambert-zhijia-v1	知佳		是	新闻播报	标准女声	中文+英文	48k
sambert-zhiru-v1	知茹		是	新闻播报	新闻女声	中文+英文	48k
sambert-zhiqian-v1	知倩		是	配音解说、新闻播报	资讯女声	中文+英文	48k
sambert-zhixiang-v1	知祥		是	配音解说	磁性男声	中文+英文	48k
sambert-zhiwei-v1	知薇		是	阅读产品简介	萝莉女声	中文+英文	48k
sambert-zhihao-v1	知浩		是	通用场景	咨询男声	中文+英文	16k
sambert-zhijing-v1	知婧		是	通用场景	严厉女声	中文+英文	16k
sambert-zhiming-v1	知茗		是	通用场景	诙谐男声	中文+英文	16k
sambert-zhimo-v1	知墨		是	通用场景	情感男声	中文+英文	16k
sambert-zhina-v1	知娜		是	通用场景	浙普女声	中文+英文	16k
sambert-zhishu-v1	知树		是	通用场景	资讯男声	中文+英文	16k
sambert-zhistella-v1	知莎		是	通用场景	知性女声	中文+英文	16k
sambert-zhiting-v1	知婷		是	通用场景	电台女声	中文+英文	16k
sambert-zhixiao-v1	知笑		是	通用场景	资讯女声	中文+英文	16k
sambert-zhiya-v1	知雅		是	通用场景	严厉女声	中文+英文	16k
sambert-zhiye-v1	知晔		是	通用场景	青年男声	中文+英文	16k
sambert-zhiying-v1	知颖		是	通用场景	软萌童声	中文+英文	16k
sambert-zhiyuan-v1	知媛		是	通用场景	知心姐姐	中文+英文	16k
sambert-zhiyue-v1	知悦		是	客服	温柔女声	中文+英文	16k
sambert-zhigui-v1	知柜		是	阅读产品简介	直播女声	中文+英文	16k
sambert-zhishuo-v1	知硕		是	数字人	自然男声	中文+英文	16k
sambert-zhimiao-emo-v1	知妙（多情感）		是	阅读产品简介、数字人、直播	多种情感女声	中文+英文	16k
sambert-zhimao-v1	知猫		是	阅读产品简介、配音解说、数字人、直播	直播女声	中文+英文	16k
sambert-zhilun-v1	知伦		是	配音解说	悬疑解说	中文+英文	16k
sambert-zhifei-v1	知飞		是	配音解说	激昂解说	中文+英文	16k
sambert-zhida-v1	知达		是	新闻播报	标准男声	中文+英文	16k
sambert-camila-v1	Camila		否	通用场景	西班牙语女声	西班牙语	16k
sambert-perla-v1	Perla		否	通用场景	意大利语女声	意大利语	16k
sambert-indah-v1	Indah		否	通用场景	印尼语女声	印尼语	16k
sambert-clara-v1	Clara		否	通用场景	法语女声	法语	16k
sambert-hanna-v1	Hanna		否	通用场景	德语女声	德语	16k
sambert-beth-v1	Beth		是	通用场景	咨询女声	美式英文	16k
sambert-betty-v1	Betty		是	通用场景	客服女声	美式英文	16k
sambert-cally-v1	Cally		是	通用场景	自然女声	美式英文	16k
sambert-cindy-v1	Cindy		是	通用场景	对话女声	美式英文	16k
sambert-eva-v1	Eva		是	通用场景	陪伴女声	美式英文	16k
sambert-donna-v1	Donna		是	通用场景	教育女声	美式英文	16k
sambert-brian-v1	Brian		是	通用场景	客服男声	美式英文	16k
sambert-waan-v1	Waan		否	通用场景	泰语女声	泰语	16k

语音识别（语音转文本）与翻译（语音转成指定语种的文本）

Gummy

Gummy大模型支持实时语音识别与翻译，能够精准识别中、英、日、韩等10种语言。此外，它还支持中、英、日、韩之间的互译，以及其他6种语言单向翻译成中文或英文。API参考

模型名称	支持的语言	支持的采样率	适用场景	支持的音频格式	单价	免费额度

模型名称

支持的语言

支持的采样率

适用场景

支持的音频格式

单价

免费额度

gummy-realtime-v1

中文、英文、日语、韩语、粤语、德语、法语、俄语、意大利语、西班牙语

翻译语言对：

中 → 英/日/韩

英 → 中/日/韩

日/韩/粤/德/法/俄/意/西 → 中/英

16kHz及以上

会议演讲、视频直播等长时间不间断识别的场景

pcm、wav、mp3、opus、speex、aac、amr

0.00015元/秒

36,000秒（10小时）

2025年1月17日0点前开通百炼：有效期至2025年7月15日

2025年1月17日0点后开通百炼：自开通日起180天有效

gummy-chat-v1

16kHz

对话聊天、指令控制、语音输入法、语音搜索等短时语音交互场景

Paraformer

Paraformer语音识别服务只识别并转写音频中的语音内容，非语音内容不计费。实际转写时长通常短于原始音频时长。由于采用AI判断，可能存在少许误差。

默认情况下，仅转写并计费多轨音频文件的首轨。若指定转写多个音轨，则各音轨按语音时长单独计费。

关于实际计费时长，请查看返回结果中的content_duration字段。

录音文件识别

API参考 | 在线体验

模型名称	支持的语言	支持的采样率	适用场景	支持的音频格式	单价	免费额度

模型名称	支持的语言	支持的采样率	适用场景	支持的音频格式	单价	免费额度
paraformer-v2	中文普通话、中文方言（粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话、江西话、云南话、上海话）、英语、日语、韩语、德语、法语、俄语	任意	视频直播	aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv	0.00008元/秒	36,000秒（10小时）每月1日0点自动发放有效期1个月
paraformer-8k-v2	中文普通话	8kHz	电话语音
paraformer-v1	中文普通话、英语	任意	音频或视频
paraformer-8k-v1	中文普通话	8kHz	电话语音
paraformer-mtl-v1	中文普通话、中文方言（粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话）、英语、日语、韩语、西班牙语、印尼语、法语、德语、意大利语、马来语	16kHz及以上	音频或视频

实时语音识别

API参考 | 在线体验

模型名称	支持的语言	支持的采样率	适用场景	支持的音频格式	单价	免费额度

模型名称	支持的语言	支持的采样率	适用场景	支持的音频格式	单价	免费额度
paraformer-realtime-v2	中文普通话、中文方言（粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话、江西话、云南话、上海话）、英语、日语、韩语支持多个语种自由切换	任意	视频直播、会议等	pcm、wav、mp3、opus、speex、aac、amr	0.00024元/秒	36,000秒（10小时）每月1日0点自动发放有效期1个月
paraformer-realtime-v1	中文	16kHz
paraformer-realtime-8k-v2		8kHz	电话客服等
paraformer-realtime-8k-v1

SenseVoice

录音文件识别

专注于高精度多语言语音识别，还能识别情绪（高兴、悲伤、生气等）和特定事件（背景音乐、歌唱、掌声和笑声等）。API参考

只识别并转写音频中的语音内容，非语音内容不计费。实际转写时长通常短于原始音频时长。由于采用AI判断，可能存在少许误差。

默认情况下，仅转写并计费多轨音频文件的首轨。若指定转写多个音轨，则各音轨按语音时长单独计费。

关于实际计费时长，请查看返回结果中的content_duration_in_milliseconds字段。

模型名称	支持的语言	支持的格式	单价	免费额度

模型名称

支持的语言

支持的格式

单价

免费额度

sensevoice-v1

超过50种语言（中、英、日、韩、粤等）

附录：支持语言列表

音频或视频：aac、amr、avi、flac、flv、m4a、mkv、mov、mp3、mp4、mpeg、ogg、opus、wav、webm、wma、wmv

0.0007 元/秒

36,000秒（10小时）

每月1日0点自动发放

有效期1个月

视频生成-通义万相与视频编辑

文生视频

通义万相-文生视频模型通过一句话即可生成视频，视频呈现丰富的艺术风格及影视级画质。API参考｜在线体验

模型名称	说明	单价	免费额度

模型名称

说明

单价

免费额度

wanx2.1-t2v-turbo

生成速度更快，表现均衡。

0.24元/秒

各200秒

有效期：百炼开通后180天内

wanx2.1-t2v-plus

生成细节更丰富，画面更具质感。

0.70元/秒

输入示例

输出视频

输入提示词：一只小猫在月光下奔跑

图生视频

通义万相-图生视频模型将输入图片作为视频首帧，再根据提示词生成视频。视频呈现丰富的艺术风格及影视级画质。API参考｜在线体验

模型名称	说明	单价	免费额度

模型名称

说明

单价

免费额度

wanx2.1-i2v-turbo

生成速度更快，耗时仅为plus模型的三分之一，性价比更高。

0.24元/秒

各200秒

有效期：百炼开通后180天内

wanx2.1-i2v-plus

生成细节更丰富，画面更具质感。

0.70元/秒

输入示例	输出视频

输入示例

输出视频

输入提示词：一只猫在草地上奔跑

输入图片：

输出视频：将图片作为视频的第一帧，再根据提示词生成视频。

模型：wanx2.1-i2v-turbo。

舞动人像AnimateAnyone

基于人物图片和人物动作模板，生成人物动作视频。直接使用时需依次调用下述三个模型。AnimateAnyone图像检测 API详情 | AnimateAnyone 动作模板生成API详情｜ AnimateAnyone视频生成API详情

模型名称	说明	单价	免费额度

模型名称	说明	单价	免费额度
animate-anyone-detect-gen2	检测输入的图片是否符合要求	0.004元/张	200张有效期：百炼开通后180天内
animate-anyone-template-gen2	从人物运动视频中提取人物动作并生成动作模板	0.08元/秒	各1800秒有效期：百炼开通后180天内
animate-anyone-gen2	基于人物图片和动作模板生成人物动作视频	0.08元/秒	各1800秒有效期：百炼开通后180天内

下面两个模型支持独立部署。模型部署后，模型调用参考这两个API详情。AnimateAnyone图像检测 API详情 | AnimateAnyone视频生成API详情

模型名称	说明	单价	免费额度

模型名称

说明

单价

免费额度

animate-anyone-detect

检测输入图片是否符合要求

当前仅支持部署后调用，仅收取部署费用。部署单价：

10000元/算力单元/月
20元/算力单元/小时

无

animate-anyone

基于人物图片和动作模板生成人物动作视频

舞动人像模型效果示例

输入：人物图片	输入：动作视频	输出（按图片背景生成）	输出（按视频背景生成）

输入：人物图片	输入：动作视频	输出（按图片背景生成）	输出（按视频背景生成）

说明

以上示例，由集成了“舞动人像AnimateAnyone”的通义APP生成。
舞动人像AnimateAnyone模型的生成内容为视频画面，不包含音频。

悦动人像EMO

基于人物肖像图片和人声音频文件，生成人物肖像动态视频。使用时需依次调用下述模型。EMO 图像检测API详情 | EMO 视频生成API详情

emo-detect-v1与emo-detect、emo-v1与emo在调用方式及计费方式中有区别，模型效果完全相同。

模型名称	说明	单价	免费额度

模型名称	说明	单价	免费额度
emo-detect-v1	检测输入的图片是否符合要求，不需要部署，可直接调用	0.004元/张	200张有效期：百炼开通后180天内
emo-v1	生成人物肖像动态视频，不需要部署，可直接调用	生成1:1画幅视频：0.08元/秒生成3:4画幅视频：0.16元/秒	1800秒有效期：百炼开通后180天内
emo-detect	检测输入的图片是否符合要求，仅支持部署后调用	当前仅支持部署后调用，仅收取部署费用。部署单价：20元/算力单元/小时	无
emo	生成人物肖像动态视频，仅支持部署后调用	当前仅支持部署后调用，仅收取部署费用。部署单价：20元/算力单元/小时	无

输入物：人物肖像图片+人声音频文件	输出物：人物肖像动态视频

输入物：人物肖像图片+人声音频文件

输出物：人物肖像动态视频

人物肖像：

上春山

人声音频：参见右侧视频

人物视频：

使用动作风格强度：活泼（"style_level": "active"）

灵动人像LivePortrait

基于人物肖像图片和人声音频文件，快速、轻量地生成人物肖像动态视频。与悦动人像EMO模型相比，生成速度快、价格低，但是生成效果不如悦动人像EMO模型。使用时需依次调用下述两个模型。LivePortrait 图像检测API详情 | LivePortrait 视频生成API详情

模型名称	说明	单价	免费额度

模型名称

说明

单价

免费额度

liveportrait-detect

检测输入的图片是否符合要求

0.004元/张

200张

有效期：百炼开通后180天内

liveportrait

生成人物肖像动态视频

0.02元/秒

1800秒

有效期：百炼开通后180天内

输入物：人物肖像图片+人声音频文件	输出物：人物肖像动态视频

输入物：人物肖像图片+人声音频文件

输出物：人物肖像动态视频

人物肖像：

Emoji男孩

人声音频：参见右侧视频

人物视频：

表情包Emoji

基于人脸图片和预设的人脸动态模板，生成人脸动态视频。该能力可用于表情包制作、视频素材生成等场景。使用时需依次调用下述模型。Emoji 图像检测API详情｜ Emoji 视频生成API详情

模型名称	说明	单价	免费额度

模型名称

说明

单价

免费额度

emoji-detect-v1

检测输入图片是否符合要求

0.004元/张

200张

有效期：百炼开通后180天内

emoji-v1

基于人物肖像图片和指定的表情包模板生成人物同款表情

0.08元/秒

500秒

有效期：百炼开通后180天内

输入：人物肖像图片	输出：人物肖像动态视频

输入：人物肖像图片	输出：人物肖像动态视频
	“开心”表情的模板序列：（"input.driven_id": "mengwa_kaixin"）

声动人像VideoRetalk

基于人物视频和人声音频，生成人物讲话口型与输入音频相匹配的视频。使用时需调用下述模型。VideoRetalk视频生成API详情

模型名称	说明	单价	免费额度

模型名称

说明

单价

免费额度

videoretalk

生成人物讲话口型与输入音频相匹配的新视频

0.08元/秒

1800秒

有效期：百炼开通后180天内

视频风格重绘

支持根据用户输入的文字内容，生成符合语义描述的不同风格的视频，或者根据用户输入的视频，进行视频风格重绘。API参考

模型名称	说明	计费	免费额度

模型名称	说明	计费	免费额度
video-style-transform	视觉风格重绘	限时免费

模型效果示例

原始视频（输入）	日式漫画（输出）

原始视频（输入）	日式漫画（输出）

文本向量

文本向量模型用于将文本转换成一组可以代表文字的数字，适用于搜索、聚类、推荐、分类任务。模型根据输入Token数计费。同步接口API详情 | 批处理接口API详情

公共云

金融云

模型名称	向量维度	最大行数	单行最大处理Token数	支持语种	单价（每千输入Token）	免费额度（注）
text-embedding-v3	1,024（默认）、768、512、256、128或64	10	8,192	中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语等50+主流语种	0.0005元Batch调用：0.00025元	各50万Token 有效期：百炼开通后180天内
text-embedding-v2	1,536	25	2,048	中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语	0.0007元Batch调用：0.00035元
text-embedding-v1		25		中文、英语、西班牙语、法语、葡萄牙语、印尼语	0.0007元Batch调用：0.00035元
text-embedding-async-v2		100,000		中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语	0.0007元	各2000万Token 有效期：百炼开通后180天内
text-embedding-async-v1		100,000		中文、英语、西班牙语、法语、葡萄牙语、印尼语	0.0007元	各2000万Token 有效期：百炼开通后180天内

模型名称

向量维度

最大行数

单行最大处理Token数

支持语种

单价

（每千输入Token）

免费额度（注）

text-embedding-v3

1024（默认）、768或512

8,192

中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语等50+主流语种

0.00133元

50万Token

有效期：百炼开通后180天内

模型升级概述

text-embedding-v2
- 语种扩充：新增对日语、韩语、德语、俄罗斯语的文本向量化能力。
- 效果提升：优化了预训练模型和SFT策略，提升了整体效果，公开数据评测结果显示有显著改进。
text-embedding-v3
- 语种扩充：支持意大利语、波兰语、越南语、泰语等语种，语种数量增加至50余种。
- 输入长度扩展：最大输入长度从2048 Token扩展至8192 Token。
- 连续向量维度自定义：允许用户选择1024、768、512、256、128或64维度，默认维度为1024。
- 不再区分Query/Document类型：简化输入，text_type参数不再需要指定文本类型。
- Sparse向量支持：支持在接口中指定输出稠密向量和离散向量。
- 效果提升：进一步优化预训练模型和SFT策略，提升整体效果，公开数据评测结果显示效果更佳。

v1、v2、v3模型的效果数据

模型	MTEB	MTEB（Retrieval task）	CMTEB	CMTEB (Retrieval task)
text-embedding-v1	58.30	45.47	59.84	56.59
text-embedding-v2	60.13	49.49	62.17	62.78
text-embedding-v3（64维度）	57.40	46.52	59.19	62.03
text-embedding-v3（128维度）	60.19	52.51	63.81	68.22
text-embedding-v3（256维度）	61.13	54.41	65.92	71.07
text-embedding-v3（512维度）	62.11	54.30	66.81	71.88
text-embedding-v3（768维度）	62.43	54.74	67.90	72.29
text-embedding-v3（1024维度）	63.39	55.41	68.92	73.23

MTEB（大规模文本嵌入评测基准）和CMTEB（中文大规模文本嵌入评测基准）采用0-100分制评估模型性能，数值越高代表效果越优。总分通过综合分类、聚类、检索等任务反映模型通用性，Retrieval Task分数用于衡量检索任务（如文档搜索）的精度，分数越高检索效果越强。

多模态向量

多模态向量模型将文本、图像或视频转换成一组由浮点数组成的向量，适用于视频分类、图像分类、图文检索等。API参考

模型名称	数据类型	向量维度	单价	免费额度（注）	限流

模型名称	数据类型	向量维度	单价	免费额度（注）	限流
multimodal-embedding-v1	float(32)	1,024	免费试用	无加权条目数限制	每分钟调用限制（RPM）：120

文本分类、抽取、排序

OpenNLU

针对给定的文本（中文或英文）进行信息抽取或文本分类。模型根据输出Token数计费。API参考

模型名称	最大输入Token数	单价（每千Token）	免费额度（注）

模型名称

最大输入Token数

单价（每千Token）

免费额度（注）

opennlu-v1

1,024

0.00465元

100万Token

有效期：百炼开通后180天内

文本排序模型

通常用于语义检索，即给定查询 (Query) 和一系列候选文本 (Documents)，会根据与查询的语义相关性从高到低对候选文本进行排序。API参考

模型名称	最大Document数量	单行最大输入Token	最大输入Token	支持语言	单价	免费额度

模型名称

最大Document数量

单行最大输入Token

最大输入Token

支持语言

单价

免费额度

gte-rerank-v2

500

4,000

30,000

中、英、日、韩、泰语、西、法、葡、德、印尼语、阿拉伯语等50+语种

限时免费

100万Token

有效期：百炼开通后180天内

单行最大输入Token：每个Query或Document的最大Token数量为4,000。如果输入内容超过此长度，将会被截断。
最大Document数量：每次请求中Document的最大数量为500。
最大输入Token：每次请求中所有Query和Document的Token总数不得超过30,000。

行业

通义法睿

适用于回答法律问题、推荐裁判类案、辅助案情分析、生成法律文书、检索法律知识、审查合同条款等。API参考 | 在线体验

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本
模型名称	（Token数）			（每千Token）

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本
模型名称	（Token数）			（每千Token）
farui-plus	12k	12k	2k	0.02元

意图理解

通义意图理解模型，能够在百毫秒级时间内快速、准确地解析用户意图，并选择合适工具来解决用户问题。API参考｜使用方法

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
模型名称	（Token数）			（每千Token）		免费额度（注）

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

（注）

（Token数）

（每千Token）

tongyi-intent-detect-v3

8,192

1,024

0.0004元

0.001元

100万Token

有效期：百炼开通后180天内