模型列表_大模型服务平台百炼(Model Studio)-阿里云帮助中心

百炼提供了丰富多样的模型选择，它集成了通义系列大模型和第三方大模型，涵盖文本、图像、音视频等不同模态。

旗舰模型

旗舰模型	通义千问-Max 适合复杂任务，推理能力最强	通义千问-Plus 效果、速度、成本均衡	通义千问-Turbo 适合简单任务，速度快、成本低	Qwen-Long 支持长达千万字文档，成本低
API调用模型名（稳定版本）	qwen-max	qwen-plus	qwen-turbo	qwen-long
最大上下文长度（Token数）	32,768	131,072	1,000,000	10,000,000
最低输入价格（每千Token）	0.02元	0.0008元	0.0003元	0.0005元
最低输出价格（每千Token）	0.06元	0.002元	0.0006元	0.002元

关于详细参数以及更多大模型，请查看下方的表格。

模型总览

类别	模型	说明
文本生成	通义千问	通义千问大语言模型：商业版（通义千问-Max、通义千问-Plus、通义千问-Turbo）、开源版（QwQ、Qwen2.5、Qwen2、Qwen1.5、Qwen）、超长文档模型Qwen-Long 多模态模型：视觉理解模型通义千问VL、音频理解模型通义千问Audio 数学模型：通义千问数学模型代码模型：通义千问Coder
文本生成	第三方模型	支持Llama、百川、ChatGLM、零一万物等第三方模型。
图像生成	通义万相	可生成图像或编辑图像，适用于生成证件照、电商主图、模特图、各种风格人像图（动漫、国风、二次元等），也可用于抠图、生成背景、更改图片元素等。
图像生成	第三方模型	支持Stable Diffusion和FLUX。
语音合成与识别	语音合成	支持CosyVoice和Sambert，实现文本转语音，适用于智能语音客服、有声读物、车载导航、教育辅导等场景。
语音合成与识别	语音识别	支持Paraformer和SenseVoice，实现语音转文本，适用于实时会议记录、实时直播字幕、电话客服等场景。
视频生成与编辑	数字人	支持悦动人像EMO，可基于人物肖像和语音，生成数字人视频。
	舞蹈视频	支持舞动人像AnimateAnyone，可基于人物图像和预设动作，生成舞蹈视频。
	视频编辑	支持视频风格重绘，保留原始人像和物体外观，并对输入的视频帧序列进行风格化重绘。
向量	文本向量	将文本转换成一组可以代表文字的数字，适用于搜索、聚类、推荐、分类任务。
向量	多模态向量	将文本、图像、语音转换成一组数字，适用于音视频分类、图像分类、图文检索等。
行业	通义法睿	适用于法律咨询、案例分析和法规解读等。

文本生成-通义千问

以下是通义千问模型的商业版。相较于开源版，商业版具有最新的能力和改进。

各模型会不定期更新升级。如需使用固定版本，请使用快照版本。快照版本通常维护至下个快照版本发布时间的后一个月。

通义千问-Max

通义千问系列效果最好的模型，适合复杂、多步骤的任务。使用方法 | API参考 | 在线体验

公共云

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每千Token）
qwen-max 当前等同qwen-max-2024-09-19	稳定版	32,768	30,720	8,192	0.02元 Batch调用：0.01元	0.06元 Batch调用：0.03元	100万Token 有效期：百炼开通后180天内
qwen-max-latest 始终等同最新快照版	最新版				0.02元	0.06元
qwen-max-2024-09-19 又称qwen-max-0919	快照版
qwen-max-2024-04-28 又称qwen-max-0428		8,000	6,000	2,000	0.04元	0.12元
qwen-max-2024-04-03 又称qwen-max-0403
qwen-max-2024-01-07 又称qwen-max-0107

最新的qwen-max-0919模型：显著提升了中英文能力、推理能力、复杂指令理解能力及数学和代码能力，支持8千字的长文本输出，强化了对Table、JSON等结构化数据的理解和生成。

金融云

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

（Token数）

（每千Token）

qwen-max

稳定版

8,000

6,000

2,000

0.038元

Batch调用：0.019元

0.114元

Batch调用：0.057元

100万Token

有效期：百炼开通后180天内

通义千问-Plus

能力均衡，推理效果、成本和速度介于通义千问-Max和通义千问-Turbo之间，适合中等复杂任务。使用方法 | API参考 | 在线体验

公共云

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每千Token）
qwen-plus 当前等同qwen-plus-2024-09-19	稳定版	131,072	129,024	8,192	0.0008元 Batch调用：0.0004元	0.002元 Batch调用：0.001元	100万Token 有效期：百炼开通后180天内
qwen-plus-latest 始终等同最新快照版	最新版				0.0008元	0.002元
qwen-plus-2024-11-27 又称qwen-plus-1127	快照版
qwen-plus-2024-11-25 又称qwen-plus-1125
qwen-plus-2024-09-19 又称qwen-plus-0919
qwen-plus-2024-08-06 又称qwen-plus-0806			128,000		0.004元	0.012元
qwen-plus-2024-07-23 又称qwen-plus-0723		32,000	30,000	8,000
qwen-plus-2024-06-24 又称qwen-plus-0624
qwen-plus-2024-02-06 又称qwen-plus-0206

最新的qwen-plus-0919模型：显著提升了中英文能力、推理能力、复杂指令理解能力及数学和代码能力，支持8千字的长文本输出。

金融云

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

（Token数）

（每千Token）

qwen-plus

稳定版

131,072

128,000

8,192

0.00152元

Batch调用：0.00076元

0.0038元

Batch调用：0.0019元

100万Token

有效期：百炼开通后180天内

通义千问-Turbo

通义千问系列速度最快、成本很低的模型，适合简单任务。使用方法 | API参考 | 在线体验

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每千Token）
qwen-turbo 当前等同qwen-turbo-2024-09-19	稳定版	131,072	129,024	8,192	0.0003元 Batch调用：0.00015元	0.0006元 Batch调用：0.0003元	100万Token 有效期：百炼开通后180天内
qwen-turbo-latest 始终等同最新快照版	最新版	1,000,000	1,000,000		0.0003元	0.0006元
qwen-turbo-2024-11-01 又称qwen-turbo-1101	快照版						1000万Token 有效期：百炼开通后180天内
qwen-turbo-2024-09-19 又称qwen-turbo-0919		131,072	129,024				100万Token 有效期：百炼开通后180天内
qwen-turbo-2024-06-24 又称qwen-turbo-0624		8,000	6,000	2,000	0.002元	0.006元
qwen-turbo-2024-02-06 又称qwen-turbo-0206

最新的qwen-turbo-2024-11-01模型：在qwen-turbo-2024-09-19模型的能力之上扩展了上下文长度，模型支持的最大上下文长度从128k扩展到1M。

Qwen-Long

支持总结和分析长达千万字的文档，且成本极低。使用方法 | API参考 | 在线体验

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

（注）

（Token数）

（每千Token）

qwen-long

10,000,000

6,000

0.0005元

0.002元

100万Token

有效期：百炼开通后180天内

通义千问VL

通义千问VL是具有视觉（图像）理解能力的文本生成模型，不仅能进行OCR（图片文字识别），还能进一步总结和推理，例如从商品照片中提取属性，根据习题图进行解题等。使用方法 | API参考 | 在线体验

通义千问VL模型按输入和输出的总Token数进行计费。

图像转换为Token的规则：512x512像素的图像约等于334个Token，其他分辨率图像按比例换算；最小单位是28x28像素，即每28x28像素对应一个Token，如果图像的长或宽不是28的整数倍，则向上取整至28的整数倍；一张图最少4个Token。

模型名称	版本	上下文长度	最大输入	最大输出	输入输出单价	免费额度（注）
		（Token数）			（每千Token）
qwen-vl-max 相比qwen-vl-plus再次提升视觉推理和指令遵循能力，在更多复杂任务中提供最佳性能。当前等同qwen-vl-max-2024-08-09	稳定版	32,000	30,000 单图最大16384	2,000	0.02元	100万Token 有效期：百炼开通后180天内
qwen-vl-max-latest 始终等同最新快照版	最新版
qwen-vl-max-2024-11-19 又称qwen-vl-max-1119	快照版
qwen-vl-max-2024-10-30 又称qwen-vl-max-1030
qwen-vl-max-2024-08-09 又称qwen-vl-max-0809 此版本扩展上下文至32k，增强图像理解能力，能更好地识别图片中的多语种和手写体。
qwen-vl-max-2024-02-01 又称qwen-vl-max-0201		8,000	6,000 单图最大1280
qwen-vl-plus 大幅提升细节识别和文字识别能力，支持超百万像素分辨率和任意宽高比的图像。在广泛的视觉任务中提供卓越性能。	稳定版	8,000	6,000 单图最大1280		0.008元
qwen-vl-plus-latest 始终等同最新快照版	最新版	32,000	30,000 单图最大16384
qwen-vl-plus-2024-08-09 又称qwen-vl-plus-0809	快照版
qwen-vl-plus-2023-12-01		8,000	6,000	2,000	0.008元

通义千问OCR

通义千问OCR模型是专用于文字提取的模型。相较于通义千问VL模型，它更专注于文档、表格、试题、手写体文字等类型图像的文字提取能力。它能够识别多种语言，包括英语、法语、日语、韩语、德语、俄语和意大利语等。使用方法 | API参考｜在线体验

模型名称	版本	上下文长度	最大输入	最大输出	输入输出单价	免费额度（注）
		（Token数）			（每千Token）
qwen-vl-ocr 当前等同qwen-vl-ocr-2024-10-28	稳定版	34096	30000 单图最大30000	4096	0.005元	100万Token 有效期：百炼开通后180天内
qwen-vl-ocr-latest 始终等同最新快照版	最新版
qwen-vl-ocr-2024-10-28 又称qwen-vl-ocr-1028	快照版

通义千问Audio

通义千问Audio是音频理解模型，支持输入多种音频（人类语音、自然音、音乐、歌声）和文本，并输出文本。该模型不仅能对输入的音频进行转录，还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。使用方法 | API参考

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每千Token）
qwen-audio-turbo 当前等同qwen-audio-turbo-2024-08-07	稳定版	8,000	6,000	1,500	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。		10万Token 有效期：百炼开通后180天内
qwen-audio-turbo-latest 始终等同最新快照版	最新版	8,192	6,144	2,048
qwen-audio-turbo-2024-12-04 又称qwen-audio-turbo-1204 较上个快照版本大幅提升语音识别准确率，且新增了语音聊天能力。	快照版
qwen-audio-turbo-2024-08-07 又称qwen-audio-turbo-0807		8,000	6,000	1,500

通义千问数学模型

通义千问数学模型是专门用于数学解题的语言模型。使用方法 | API参考 | 在线体验

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每千Token）
qwen-math-plus 当前等同qwen-math-plus-2024-09-19	稳定版	4,096	3,072	3,072	0.004元	0.012元	100万Token 有效期：百炼开通后180天内
qwen-math-plus-latest 始终等同最新快照版	最新版
qwen-math-plus-2024-09-19 又称qwen-math-plus-0919	快照版
qwen-math-plus-2024-08-16 又称qwen-math-plus-0816
qwen-math-turbo 当前等同qwen-math-turbo-2024-09-19	稳定版				0.002元	0.006元
qwen-math-turbo-latest 始终等同最新快照版	最新版
qwen-math-turbo-2024-09-19 又称qwen-math-turbo-0919	快照版

通义千问Coder

通义千问代码模型。使用方法 | API参考 | 在线体验

模型名称	版本	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
		（Token数）			（每千Token）
qwen-coder-plus 当前等同qwen-coder-plus-2024-11-06	稳定版	131,072	129,024	8192	0.0035元	0.007元	100万Token 有效期：百炼开通后180天内
qwen-coder-plus-latest 等同qwen-coder-plus最新的快照版本	最新版
qwen-coder-plus-2024-11-06 又称qwen-coder-plus-1106	快照版
qwen-coder-turbo 当前等同qwen-coder-turbo-2024-09-19	稳定版	131,072	129,024	8,192	0.002元	0.006元	100万Token 有效期：百炼开通后180天内
qwen-coder-turbo-latest 等同qwen-coder-turbo最新的快照版本	最新版
qwen-coder-turbo-2024-09-19 又称qwen-coder-turbo-0919	快照版

文本生成-通义千问-开源版

模型名称中，xxb表示参数规模，例如qwen2-72b-instruct表示参数规模为72B，即720亿。
百炼支持调用通义千问的开源版，您无需本地部署模型。对于开源版，建议使用Qwen2.5或Qwen2模型。

QwQ

QwQ模型是由 Qwen 团队开发的实验性研究模型，专注于增强 AI 推理能力，尤其是数学和编程领域。QwQ模型的局限性请参见QwQ官方博客。使用方法 | API参考｜在线体验

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

（注）

（Token数）

（每千Token）

qwq-32b-preview

32,768

30,720

16,384

目前仅供免费体验。

免费额度用完后不可调用，敬请关注后续动态。

100万Token

有效期：百炼开通后180天内

Qwen2.5

Qwen2.5是Qwen大型语言模型的最新系列。针对Qwen2.5，我们发布了一系列基础语言模型和指令调优语言模型，参数规模从5亿到720亿不等。Qwen2.5在Qwen2基础上进行了以下改进：

在我们最新的大规模数据集上进行预训练，包含多达18万亿个Token。
由于我们在这些领域的专业专家模型，模型的知识显著增多，编码和数学能力也大大提高。
在遵循指令、生成长文本（超过8K个标记）、理解结构化数据（例如表格）和生成结构化输出（尤其是JSON）方面有显著改进。对系统提示的多样性更具弹性，增强了聊天机器人的角色扮演实现和条件设置。
支持超过29种语言，包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。

使用方法 | API参考 | 在线体验

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每千Token）
qwen2.5-72b-instruct	131,072	129,024	8,192	0.004元	0.012元	100万Token 有效期：百炼开通后180天内
qwen2.5-32b-instruct				0.0035元	0.007元
qwen2.5-14b-instruct				0.002元	0.006元
qwen2.5-7b-instruct				0.001元	0.002元
qwen2.5-3b-instruct	32,768	30,720		限时免费
qwen2.5-1.5b-instruct
qwen2.5-0.5b-instruct

Qwen2

阿里云的通义千问2-开源版。使用方法 | API参考 | 在线体验

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
模型名称	（Token数）			（每千Token）		免费额度（注）
qwen2-72b-instruct	131,072	128,000	6,144	0.004元	0.012元	100万Token 有效期：百炼开通后180天内
qwen2-57b-a14b-instruct	65,536	63,488		0.0035元	0.007元
qwen2-7b-instruct	131,072	128,000		0.001元	0.002元
qwen2-1.5b-instruct	32,768	30,720		限时免费
qwen2-0.5b-instruct	32,768	30,720		限时免费

Qwen1.5

阿里云的通义千问1.5-开源版。使用方法 | API参考 | 在线体验

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每千Token）
qwen1.5-110b-chat	32,000	30,000	8,000	0.007元	0.014元	100万Token 有效期：百炼开通后180天内
qwen1.5-72b-chat			2,000	0.005元	0.01元
qwen1.5-32b-chat				0.0035元	0.007元
qwen1.5-14b-chat	8,000	6,000		0.002元	0.004元
qwen1.5-7b-chat				0.001元	0.002元
qwen1.5-1.8b-chat	32,000	30,000		限时免费
qwen1.5-0.5b-chat

Qwen

阿里云的通义千问-开源版。使用方法 | API参考 | 在线体验

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
模型名称	（Token数）			（每千Token）		免费额度（注）
qwen-72b-chat	32,000	30,000	2,000	0.02元	0.02元	100万Token 有效期：百炼开通后180天内
qwen-14b-chat	8,000	6,000	2,000	0.008元	0.008元
qwen-7b-chat	7,500		1,500	0.006元	0.006元
qwen-1.8b-chat	8,000		2,000	限时免费
qwen-1.8b-longcontext-chat	32,000	30,000	2,000	限时免费（需申请）

Qwen-VL

阿里云的通义千问VL开源版。使用方法 | API参考

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每千Token）
qwen2-vl-7b-instruct	32,000	30,000 单图最大16384	2,000	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。		10万Token 有效期：百炼开通后180天内
qwen2-vl-2b-instruct				限时免费
qwen-vl-v1	8,000	6,000 单图最大1280	1,500	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。
qwen-vl-chat-v1

Qwen-Audio

阿里云的通义千问Audio开源版。使用方法 | API参考

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每千Token）
qwen2-audio-instruct 相比qwen-audio-chat提升了音频理解能力，且新增了语音聊天能力。	8,000	6,000	1,500	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。		10万Token 有效期：百炼开通后180天内
qwen-audio-chat

Qwen-Math

基于Qwen模型构建的专门用于数学解题的语言模型。Qwen2.5-Math相比Qwen2-Math有了实质性的改进。Qwen2.5-Math支持中文和英文，并整合了多种推理方法，包括CoT（Chain of Thought）、PoT（Program of Thought）和 TIR（Tool-Integrated Reasoning）。使用方法 | API参考| 在线体验

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每千Token）
qwen2.5-math-72b-instruct	4,096	3,072	3,072	0.004元	0.012元	100万Token 有效期：百炼开通后180天内
qwen2.5-math-7b-instruct				0.001元	0.002元
qwen2.5-math-1.5b-instruct				限时免费
qwen2-math-72b-instruct				0.004元	0.012元
qwen2-math-7b-instruct				0.001元	0.002元
qwen2-math-1.5b-instruct				目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。

Qwen-Coder

通义千问代码模型开源版。Qwen2.5-Coder相比CodeQwen1.5有了实质性的改进。Qwen2.5-Coder在包含5.5万亿Token的编程相关数据上进行了训练，使即使较小的编程专用模型也能在编程评估基准测试中表现出媲美大型语言模型的竞争力。API参考 | 在线体验

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本	免费额度（注）
	（Token数）			（每千Token）
qwen2.5-coder-32b-instruct	131,072	129,024	8,192	0.0035元	0.007元	100万Token 有效期：百炼开通后180天内
qwen2.5-coder-14b-instruct				0.002元	0.006元
qwen2.5-coder-7b-instruct				0.001元	0.002元
qwen2.5-coder-3b-instruct	32,768	30,720		限时免费		限时免费
qwen2.5-coder-1.5b-instruct						100万Token 有效期：百炼开通后180天内
qwen2.5-coder-0.5b-instruct						限时免费

文本生成-第三方模型

Llama-仅文本输入

Meta推出的大语言模型，下列模型只支持输入文本。API参考 | 在线体验（需申请）

模型名称	上下文长度	最大输入	输入输出成本	免费额度（注）
	（Token数）
llama3.3-70b-instruct	32,000	30,000	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。	100万Token（需申请）有效期：百炼开通后180天内。
llama3.2-3b-instruct
llama3.2-1b-instruct
llama3.1-405b-instruct
llama3.1-70b-instruct
llama3.1-8b-instruct
llama3-70b-instruct	8,000	8,000
llama3-8b-instruct
llama2-13b-chat-v2	4,000	4,000
llama2-7b-chat-v2

Llama-文本和图像输入

Meta推出的大语言模型，下列模型支持输入文本和图像。API参考 | 在线体验（需申请）

模型名称	上下文长度	输入输出成本	免费额度（注）
	（Token数）
llama3.2-90b-vision-instruct	8192	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。	100万Token（需申请）有效期：百炼开通后180天内。
llama3.2-11b-vision

百川

百川智能推出的大语言模型。API参考 | 在线体验（需申请）

模型名称

上下文长度

最大输入

输入成本

输出成本

免费额度

（注）

（Token数）

（每千Token）

baichuan2-turbo

32,000

目前仅供免费体验。

免费额度用完后不可调用，敬请关注后续动态。

100万Token（需申请）

有效期：申请通过后180天内

百川-开源版

来自百川智能，该系列模型在平台中支持微调训练。API参考 | 在线体验（需申请）

模型名称	上下文长度	最大输入	输入成本	输出成本	免费额度（注）
	（Token数）		（每千Token）
baichuan2-13b-chat-v1	4096	4096	0.008元	0.008元	100万Token（需申请）有效期：百炼开通后180天内
baichuan2-7b-chat-v1			0.006元	0.006元
baichuan-7b-v1			目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。		100万Token（需申请）有效期：百炼开通后180天内

ChatGLM

智谱AI推出的大语言模型。API参考 | 在线体验

模型名称	上下文长度	最大输入	输入成本	输出成本	免费额度（注）
模型名称	（Token数）		（每千Token）		免费额度（注）
chatglm3-6b	7500	7500	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。		100万Token 有效期：百炼开通后180天内
chatglm-6b-v2	6500	6500	0.006元	0.006元	100万Token（需申请）有效期：百炼开通后180天内

零一万物

零一万物推出的大语言模型。API参考 | 在线体验（需申请）

模型名称	上下文长度	最大输入	输入输出成本	免费额度（注）
	（Token数）
yi-large	32,000	32,000	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。	100万Token（需申请）有效期：申请通过后180天内
yi-medium
yi-large-rag 有实时联网能力	16,000	16,000
yi-large-turbo

MiniMax

MiniMax推出的大语言模型。API参考 | 在线体验（需申请）

模型名称	说明	上下文长度	最大输入	输入输出成本	免费额度（注）
		（Token数）
abab6.5g-chat	适合英文场景	8,000	8,000	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。	100万Token（需申请）有效期：申请通过后180天内
abab6.5t-chat	适合中文场景
abab6.5s-chat	适合超长文本场景	245,000	245,000

姜子牙

IDEA研究院推出的大语言模型。API参考

模型名称	输入输出成本
ziya-llama-13b-v1	限时免费（需申请）

BELLE

BELLE推出的大语言模型。API参考

模型名称	输入输出成本
belle-llama-13b-2m-v1	限时免费（需申请）

元语

元语智能推出的大语言模型。API参考

模型名称	输入输出成本
chatyuan-large-v2	限时免费（需申请）

BiLLa

BiLLa是开源的推理能力增强的中英双语LLaMA模型，较大提升LLaMA的中文理解能力, 并尽可能减少对原始LLaMA英文能力的损伤。API参考

模型名称	输入输出成本
billa-7b-sft-v1	限时免费（需申请）

图像生成-通义万相与图像编辑

通用图像生成

可以基于输入的文本生成图片。此外，还支持输入参考图片，并参考图片内容或者图片风格进行图片生成。API参考 | 在线体验

模型名称

示例输入

示例输出

单价

免费额度（注）

wanx-v1

参考图

提示词：一只小狗在笑

小狗在笑

0.16元/张

500张

有效期：百炼开通后180天内

涂鸦作画

基于输入的手绘图加文字描述，即可生成精美的涂鸦绘画作品。API参考

模型名称

示例输入

示例输出

单价

免费额度（注）

wanx-sketch-to-image-lite

提示词：一棵参天大树

0.06元/张

500张

有效期：百炼开通后180天内

图像布局重绘

根据用户输入的原始图片和局部涂抹图、prompt提示词文字内容，生成符合语义描述的多样化风格的局部重绘图像。API参考

模型名称

示例输入

示例输出

单价

免费额度（注）

wanx-x-painting

布局涂抹图：

提示词：一只狗戴着红色眼镜

目前仅供免费体验。

免费额度用完后不可调用，敬请关注后续动态。

500张

有效期：百炼开通后180天内

人像风格重绘

人像风格重绘可以将输入的人物图像进行多种风格化的重绘生成，使新生成的图像在兼顾原始人物相貌的同时，带来不同风格的绘画效果。API参考

模型名称

示例输入

示例输出

单价

免费额度（注）

wanx-style-repaint-v1

风格：清雅国风

0.12元/张

500张

有效期：百炼开通后180天内

图像背景生成

图像背景生成可以基于输入的前景图像素材拓展生成背景信息，实现自然的光影融合效果，与细腻的写实画面生成。支持文本描述、图像引导等多种方式，同时支持对生成的图像智能添加文字内容。API参考

模型名称

示例输入

示例输出

单价

免费额度（注）

wanx-background-generation-v2

提示词：在桌面上，旁边有插着花朵的花瓶，背后是纯色高级的背景墙。

0.08元/张

500张

有效期：百炼开通后180天内

图像画面扩展

图像画面大模型，对输入图像进行画面自由扩展，支持旋转画面，支持按照扩展系数和扩展像素数两种方式进行扩图。用户可以通过指定宽度、高度画面扩展比例或者左、右、上、下的扩展的像素值来控制画面扩展，可用于创意娱乐、辅助作图、画面设计、影视后期制作等场景。API参考

模型名称

示例输入

示例输出

单价

免费额度（注）

image-out-painting

目前仅供免费体验。

免费额度用完后不可调用，敬请关注后续动态。

500张

有效期：百炼开通后180天内

人物实例分割

输入人物图像，模型识别出图像中的不同人物对象并画出每个对象边界的像素级掩码。API参考

模型名称

示例输入

示例输出

单价

免费额度

image-instance-segmentation

输出结果1：像素级掩码图像

输出结果2：可视化图像

限时免费

图像擦除补全

输入图像并指定待擦除区域掩码图像以及保留区域掩码图像，模型在保留原图背景的同时擦除指定图像区域。API参考

针对人物图像的擦除、补全，推荐通过人物实例分割得到图像中不同人物对象的图像掩码，选择完整的人物图像掩码擦除一个或多个人物。

模型名称

示例输入

示例输出

单价

免费额度

image-erase-completion

图片擦除2-原图.png

原图

图片擦除2-擦除.png

待擦除区域

图片擦除2-保留.png

保留区域

限时免费

动漫人物生成

Cosplay动漫人物生成通过输入人像图片和卡通形象图片，可快速生成人物卡通写真。API参考

模型名称

示例输入

示例输出

单价

免费额度（注）

wanx-style-cosplay-v1

目前仅供免费体验。

免费额度用完后不可调用，敬请关注后续动态。

300张

有效期：百炼开通后180天内

虚拟模特

可以对上传的真人实拍商品展示图进行智能生成，将其中的模特和背景替换为心仪的内容，在保持人物姿态不变的情况下，使用虚拟模特对商品进行更加精美、多样的展示。支持各种与模特产生互动的商品，如手持小商品、服装、鞋靴、配饰等。

V2相比V1，生成图片分辨率为短边1024或2048，支持改变分辨率，文本引导效果更准确。API参考

模型名称

版本

V2示例输入

V2示例输出

单价

免费额度（注）

wanx-virtualmodel

目前仅供免费体验。

免费额度用完后不可调用，敬请关注后续动态。

500张

有效期：百炼开通后180天内

virtualmodel-v2

限时免费

鞋靴模特

鞋靴模特支持输入多视角鞋靴系列图片，同时对输入模特模板图的鞋子区域进行鞋靴AI试穿，实现模特鞋靴布局重绘生成，最终生成图片的效果，布局自然、细节丰富、画面细腻、试穿结果逼真。可用于模特商品图设计、新鞋AI试穿、模特穿戴布局重绘等场景。API参考

模型名称

示例输入

示例输出

单价

免费额度

shoemodel-v1

公测中

无

创意海报生成

根据您的要求自动生成海报的背景和文字排版，支持多种海报风格。无需设计基础，轻松制作出彩作品，让创意触手可及。API参考

模型名称

示例输入

示例输出

单价

免费额度（注）

wanx-poster-generation-v1

"title":"元宵节",

"sub_title":"正月十五",

"body_text":"团圆时节，汤圆香甜，祝你幸福美满！",

"prompt_text_zh":"灯笼，小猫，梅花",

"wh_ratios":"竖版",

"lora_name":"童话油画",

限时免费

500张

有效期：百炼开通后180天内

图配文

您只要输入背景图和文字，就能将文字排版到图片上，形成一张完整的图文海报。API参考

模型名称

示例输入

示例输出

单价

wanx-ast

"title":"Lorem Ipsum",

"subtitle":"Duis aute irure dolor in reprehenderit",

"text":"VIEW NOW",

"underlay": 1,

"logo":

快速开始生成结果

限时免费

人物写真生成-FaceChain

人物图像检测：对用户上传的人物图像进行检测，判断其中所包含的人脸是否符合Facechain微调所需的标准，检测维度包括人脸数量、大小、角度、光照、清晰度等多维度，支持图像组输入，并返回每张图像对应的检测结果。API参考
人物形象训练：对上传的图像进行模型训练，从而获得该图像中对应人物的resource，基于该resource可以实现人物的写真生成。API参考
人物写真生成：基于人物形象训练已经得到的形象，可以继续通过人物生成写真模型完成该形象的写真生成，支持多种预设风格，包括证件照、商务写真等。API参考

模型名称	说明	示例输入	示例输出	单价	免费额度（注）
facechain-facedetect	人物图像检测	风格：商务写真		限时免费	限时免费
facechain-finetune	人物形象训练			2.5元/次	50次有效期：申请通过后180天内
facechain-generation	人物写真生成			0.18元/张	500张有效期：申请通过后180天内

创意文字生成-WordArt锦书

文字纹理生成：可以对输入的文字内容或文字图片进行创意设计，根据提示词内容对文字添加材质和纹理，实现立体凸显或场景融合的效果，生成效果精美、风格多样的艺术字，结合背景可以直接作为文字海报使用。API参考
文字变形：可以对输入的文字边缘轮廓进行创意变形，根据提示词内容进行边缘变化，实现一种字体的更多种创意用法，返回带有文字内容的黑底白色mask图。API参考
百家姓生成：可以输入姓氏文字进行创意设计，支持根据提示词和风格引导图进行自定义设计，同时提供多种精美的预设风格模板，生成图片可以应用于个性社交场景，如作为个人头像、屏幕壁纸、字体表情包等。API参考

模型名称	说明	示例输入	示例输出	单价	免费额度（注）
wordart-texture	文字纹理生成	提示词：精美玉石风格类型：立体材质		0.08元/张	500张有效期：百炼开通后365天内
wordart-semantic	文字变形	文字：桂林山水提示词：山峦叠嶂、漓江蜿蜒、岩石奇秀		0.24元/张	500张有效期：百炼开通后365天内
wordart-surnames	百家姓生成	百家姓：沈风格：奇幻楼阁		暂无	500张有效期：百炼开通后180天内

AI试衣

AI试衣一款虚拟试衣图片生成模型，基于人像照片及服装图生成穿着后的试衣图片。API参考
AI试衣-图片精修是对AI试衣生成的效果图进行二次生成，输出还原度更高的精修试衣效果图。API参考

模型名称

说明

示例输入

示例输出

免费额度（注）

aitryon

AI试衣

300张

有效期：百炼开通后180天内

aitryon-refiner

AI试衣-图片精修

100张

有效期：百炼开通后180天内

AI试衣价格表

模型名称	计量单价	折扣	阶梯层级
aitryon	0.60元/张	无	生成数量 ≤ 100张
	0.55元/张	9.2折	100张＜生成数量 ≤ 500张
	0.50元/张	8.4折	500张＜生成数量 ≤ 1000张
	0.45元/张	7.5折	1000张＜生成数量 ≤ 5000张
	0.40元/张	6.7折	5000张＜生成数量 ≤ 1万张
	0.35元/张	5.8折	1万张＜生成数量 ≤ 10万张
	0.30元/张	5折	生成数量＞ 10万张
aitryon-refiner	0.30元/张	无	生成数量 ≤ 25张
	0.275元/张	9.2折	25张＜生成数量 ≤ 125张
	0.25元/张	8.4折	125张＜生成数量 ≤ 250张
	0.225元/张	7.5折	250张＜生成数量 ≤ 1250张
	0.2元/张	6.7折	1250张＜生成数量 ≤ 2500张
	0.175元/张	5.8折	2500张＜生成数量 ≤ 2.5万张
	0.15元/张	5折	生成数量＞ 2.5万张

图像生成-第三方模型

Stable Diffusion

API参考

模型名称	说明	单价	免费额度（注）
stable-diffusion-3.5-large	具有8亿参数的多模态扩散变压器（MMDiT）文本到图像生成模型，具备卓越的图像质量和提示词匹配度，支持生成100万像素的高分辨率图像，且能够在普通消费级硬件上高效运行。相比于v1.5和xl，在图像质量、文本内容生成、复杂提示理解和资源效率方面均有显著提升。	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。	500张有效期：申请通过后180天内
stable-diffusion-3.5-large-turbo	在stable-diffusion-3.5-large的基础上采用对抗性扩散蒸馏（ADD）技术的模型，具备更快的速度。
stable-diffusion-xl	相比v1.5做了重大改进，被认为是当前开源文生图模型的SOTA水准，具体改进包括：unet backbone是之前的3倍；增加了refinement模块用于改善生成图片的质量；更高效的训练技巧等。
stable-diffusion-v1.5	通过clip模型将文本的embedding和图片embedding映射到相同空间，从而通过输入文本并结合unet的稳定扩散预测噪声的能力，生成图片。是一款基础的文生图模型，得到了业界广泛使用。

FLUX

Black Forest Labs的开源文生图模型，尤其擅长生成包含文字、多主体、手部细节的图片。

API详情 | 在线体验

模型名称	说明	单价	免费额度（注）
flux-merged	结合了flux-dev的深度和flux-schnell的快速执行。	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。	1000张有效期：百炼开通后180天内
flux-dev	开发者版，面向非商业应用，具有与专业版相近的图像质量和指令遵循能力，同时运行效率更高。	目前仅供免费体验。免费额度用完后不可调用，敬请关注后续动态。
flux-schnell	快速版，轻量级模型。	计费方案即将推出。

语音合成（文本转语音）

CosyVoice

CosyVoice是通义实验室依托大规模预训练语言模型，深度融合文本理解和语音生成的新一代生成式语音合成大模型，支持文本至语音的实时流式合成。API参考 | 在线体验

模型名称

单价

免费额度

cosyvoice-v1

2元/万字符

根据待合成字符数计费（其中1个汉字算2个字符，英文、标点符号、空格均按照1个字符计费）。

每主账号每模型每月2000字符。

音色列表：

模型名称	voice参数	音色	音频试听	适用场景	语言	默认采样率（Hz）	默认音频格式
cosyvoice-v1	longxiaochun	龙小淳		语音助手、导航播报、聊天数字人	中文+英文	22050	mp3
cosyvoice-v1	longxiaoxia	龙小夏		语音助手、聊天数字人	中文	22050	mp3
cosyvoice-v1	longxiaocheng	龙小诚		语音助手、导航播报、聊天数字人	中文+英文	22050	mp3
cosyvoice-v1	longxiaobai	龙小白		聊天数字人、有声书、语音助手	中文	22050	mp3
cosyvoice-v1	longlaotie	龙老铁		新闻播报、有声书、语音助手、直播带货、导航播报	中文东北口音	22050	mp3
cosyvoice-v1	longshu	龙书		有声书、语音助手、导航播报、新闻播报、智能客服	中文	22050	mp3
cosyvoice-v1	longshuo	龙硕		语音助手、导航播报、新闻播报、客服催收	中文	22050	mp3
cosyvoice-v1	longjing	龙婧		语音助手、导航播报、新闻播报、客服催收	中文	22050	mp3
cosyvoice-v1	longmiao	龙妙		客服催收、导航播报、有声书、语音助手	中文	22050	mp3
cosyvoice-v1	longyue	龙悦		语音助手、诗词朗诵、有声书朗读、导航播报、新闻播报、客服催收	中文	22050	mp3
cosyvoice-v1	longyuan	龙媛		有声书、语音助手、聊天数字人	中文	22050	mp3
cosyvoice-v1	longfei	龙飞		会议播报、新闻播报、有声书	中文	22050	mp3
cosyvoice-v1	longjielidou	龙杰力豆		新闻播报、有声书、聊天助手	中文+英文	22050	mp3
cosyvoice-v1	longtong	龙彤		有声书、导航播报、聊天数字人	中文	22050	mp3
cosyvoice-v1	longxiang	龙祥		新闻播报、有声书、导航播报	中文	22050	mp3
cosyvoice-v1	loongstella	Stella		语音助手、直播带货、导航播报、客服催收、有声书	中文+英文	22050	mp3
cosyvoice-v1	loongbella	Bella		语音助手、客服催收、新闻播报、导航播报	中文	22050	mp3

Sambert

Sambert语音合成API基于达摩院改良的自回归韵律模型，支持文本至语音的实时流式合成。API参考

模型名称

单价

免费额度

见下表

1元/万字符

根据待合成字符数计费（其中1个汉字算2个字符，英文、标点符号、空格均按照1个字符计费）。SSML标签内容不计费。

每主账号每模型每月3万字符。

模型（音色）列表：

模型名称	音色	音频试听	时间戳支持	适用场景	特色	语言	默认采样率（Hz）
sambert-zhinan-v1	知楠		是	通用场景	广告男声	中文+英文	48k
sambert-zhiqi-v1	知琪		是	通用场景	温柔女声	中文+英文	48k
sambert-zhichu-v1	知厨		是	新闻播报	舌尖男声	中文+英文	48k
sambert-zhide-v1	知德		是	新闻播报	新闻男声	中文+英文	48k
sambert-zhijia-v1	知佳		是	新闻播报	标准女声	中文+英文	48k
sambert-zhiru-v1	知茹		是	新闻播报	新闻女声	中文+英文	48k
sambert-zhiqian-v1	知倩		是	配音解说、新闻播报	资讯女声	中文+英文	48k
sambert-zhixiang-v1	知祥		是	配音解说	磁性男声	中文+英文	48k
sambert-zhiwei-v1	知薇		是	阅读产品简介	萝莉女声	中文+英文	48k
sambert-zhihao-v1	知浩		是	通用场景	咨询男声	中文+英文	16k
sambert-zhijing-v1	知婧		是	通用场景	严厉女声	中文+英文	16k
sambert-zhiming-v1	知茗		是	通用场景	诙谐男声	中文+英文	16k
sambert-zhimo-v1	知墨		是	通用场景	情感男声	中文+英文	16k
sambert-zhina-v1	知娜		是	通用场景	浙普女声	中文+英文	16k
sambert-zhishu-v1	知树		是	通用场景	资讯男声	中文+英文	16k
sambert-zhistella-v1	知莎		是	通用场景	知性女声	中文+英文	16k
sambert-zhiting-v1	知婷		是	通用场景	电台女声	中文+英文	16k
sambert-zhixiao-v1	知笑		是	通用场景	资讯女声	中文+英文	16k
sambert-zhiya-v1	知雅		是	通用场景	严厉女声	中文+英文	16k
sambert-zhiye-v1	知晔		是	通用场景	青年男声	中文+英文	16k
sambert-zhiying-v1	知颖		是	通用场景	软萌童声	中文+英文	16k
sambert-zhiyuan-v1	知媛		是	通用场景	知心姐姐	中文+英文	16k
sambert-zhiyue-v1	知悦		是	客服	温柔女声	中文+英文	16k
sambert-zhigui-v1	知柜		是	阅读产品简介	直播女声	中文+英文	16k
sambert-zhishuo-v1	知硕		是	数字人	自然男声	中文+英文	16k
sambert-zhimiao-emo-v1	知妙（多情感）		是	阅读产品简介、数字人、直播	多种情感女声	中文+英文	16k
sambert-zhimao-v1	知猫		是	阅读产品简介、配音解说、数字人、直播	直播女声	中文+英文	16k
sambert-zhilun-v1	知伦		是	配音解说	悬疑解说	中文+英文	16k
sambert-zhifei-v1	知飞		是	配音解说	激昂解说	中文+英文	16k
sambert-zhida-v1	知达		是	新闻播报	标准男声	中文+英文	16k
sambert-camila-v1	Camila		否	通用场景	西班牙语女声	西班牙语	16k
sambert-perla-v1	Perla		否	通用场景	意大利语女声	意大利语	16k
sambert-indah-v1	Indah		否	通用场景	印尼语女声	印尼语	16k
sambert-clara-v1	Clara		否	通用场景	法语女声	法语	16k
sambert-hanna-v1	Hanna		否	通用场景	德语女声	德语	16k
sambert-beth-v1	Beth		是	通用场景	咨询女声	美式英文	16k
sambert-betty-v1	Betty		是	通用场景	客服女声	美式英文	16k
sambert-cally-v1	Cally		是	通用场景	自然女声	美式英文	16k
sambert-cindy-v1	Cindy		是	通用场景	对话女声	美式英文	16k
sambert-eva-v1	Eva		是	通用场景	陪伴女声	美式英文	16k
sambert-donna-v1	Donna		是	通用场景	教育女声	美式英文	16k
sambert-brian-v1	Brian		是	通用场景	客服男声	美式英文	16k
sambert-waan-v1	Waan		否	通用场景	泰语女声	泰语	16k

语音识别（语音转文本）

Paraformer

Paraformer语音识别服务只识别并转写音频中的语音内容，非语音内容不计费。实际转写时长通常短于原始音频时长。由于采用AI判断，可能存在少许误差。

默认情况下，仅转写并计费多轨音频文件的首轨。若指定转写多个音轨，则各音轨按语音时长单独计费。

关于实际计费时长，请查看返回结果中的content_duration字段。

录音文件识别

API参考 | 在线体验

模型名称	支持的语言	支持的采样率	适用的格式	单价	免费额度
paraformer-v2	中文普通话、中文方言（粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话、江西话、云南话、上海话）、英语、日语、韩语	任意	视频直播、电话客服等	0.00008元/秒	36,000秒（10小时）每月1日0点自动发放有效期1个月
paraformer-8k-v2	中文普通话	8kHz	电话语音
paraformer-v1	中文普通话、英语	任意	音频或视频
paraformer-8k-v1	中文普通话	8kHz	电话语音
paraformer-mtl-v1	中文普通话、中文方言（粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话）、英语、日语、韩语、西班牙语、印尼语、法语、德语、意大利语、马来语	16kHz及以上	音频或视频

实时语音识别

API参考 | 在线体验

模型名称	支持的语言	支持的采样率	适合场景	单价	免费额度
paraformer-realtime-v2	中文普通话、中文方言（粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话、江西话、云南话、上海话）、英语、日语、韩语支持多个语种自由切换	任意	视频直播、会议等	0.00024元/秒	36,000秒（10小时）每月1日0点自动发放有效期1个月
paraformer-realtime-v1	中文	16kHz
paraformer-realtime-8k-v2		8kHz	电话客服等
paraformer-realtime-8k-v1

SenseVoice

录音文件识别

专注于高精度多语言语音识别，还能识别情绪（高兴、悲伤、生气等）和特定事件（背景音乐、歌唱、掌声和笑声等）。API参考

只识别并转写音频中的语音内容，非语音内容不计费。实际转写时长通常短于原始音频时长。由于采用AI判断，可能存在少许误差。

默认情况下，仅转写并计费多轨音频文件的首轨。若指定转写多个音轨，则各音轨按语音时长单独计费。

关于实际计费时长，请查看返回结果中的content_duration_in_milliseconds字段。

模型名称

支持的语言

适用的格式

单价

免费额度

sensevoice-v1

超过50种语言（中、英、日、韩、粤等）

附录：支持语言列表

音频或视频

0.0007 元/秒

36,000秒（10小时）

每月1日0点自动发放

有效期1个月

视频合成

悦动人像EMO

基于人物肖像图片和人声音频文件，生成人物肖像动态视频。使用时需依次调用下述模型。EMO 图像检测API详情 | EMO 视频生成API详情

emo-detect-v1与emo-detect、emo-v1与emo在调用方式及计费方式中有区别，模型效果完全相同。

模型名称	说明	单价	免费额度
emo-detect-v1	检测输入的图片是否符合要求，不需要部署，可直接调用	0.004元/张	200张有效期：百炼开通后180天内
emo-v1	生成人物肖像动态视频，不需要部署，可直接调用	生成1:1画幅视频：0.08元/秒生成3:4画幅视频：0.16元/秒	1800秒有效期：百炼开通后180天内
emo-detect	检测输入的图片是否符合要求，仅支持部署后调用	当前仅支持部署后调用，仅收取部署费用。部署单价：20元/算力单元/小时	无
emo	生成人物肖像动态视频，仅支持部署后调用	当前仅支持部署后调用，仅收取部署费用。部署单价：20元/算力单元/小时	无

灵动人像LivePortrait

基于人物肖像图片和人声音频文件，快速、轻量地生成人物肖像动态视频。与悦动人像EMO模型相比，生成速度快、价格低，但是生成效果不如悦动人像EMO模型。使用时需依次调用下述两个模型。LivePortrait 图像检测API详情 | LivePortrait 视频生成API详情

模型名称

说明

单价

免费额度

liveportrait-detect

检测输入的图片是否符合要求

0.004元/张

200张

有效期：百炼开通后180天内

liveportrait

生成人物肖像动态视频

0.02元/秒

1800秒

有效期：百炼开通后180天内

舞动人像AnimateAnyone

基于人物图片和预设的动作序列，生成人物动作视频。使用时需依次调用下述两个模型。AnimateAnyone图像检测 API详情 | AnimateAnyone视频生成API详情

模型名称

说明

计费

免费额度

animate-anyone-detect

检测输入的图像是否符合要求

当前仅支持部署后调用，仅收取部署费用。

部署单价：20元/算力单元/小时

无

animate-anyone

生成人物全身动作视频

幻影人像Motionshop

将视频中的人物替换为指定的3D角色形象，并合成新视频。使用时需依次调用下述模型。Motionshop 视频检测API详情 | Motionshop 3D角色生成API详情 | Motionshop 视频合成API详情（需申请）

模型名称	说明	单价	免费额度
motionshop-video-detect	检测输入的视频是否符合要求	0.04元/次	50次（需申请）有效期：申请通过后180天内
motionshop-gen3d	基于人物图片生成符合要求的3D角色形象	1元/次	5次（需申请）有效期：申请通过后180天内
motionshop-synthesis	将视频中的人物替换为指定的3D角色形象，并合成新视频	0.2元/秒	600秒（需申请）有效期：申请通过后180天内

视频编辑与生成

支持根据用户输入的文字内容，生成符合语义描述的不同风格的视频，或者根据用户输入的视频，进行视频风格重绘。API参考

模型名称	说明	计费	免费额度
video-style-transform	视觉风格重绘	限时免费

文本向量

文本向量模型用于将文本转换成一组可以代表文字的数字，适用于搜索、聚类、推荐、分类任务。模型根据输出Token数计费。同步接口API详情 | 批处理接口API详情

模型名称	向量维度	最大行数	单行最大处理Token数	支持语种	单价（每千Token）	免费额度（注）
text-embedding-v3	1024 768 512	6	8192	中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语等50+语种	0.0007元	50万Token 有效期：百炼开通后180天内
text-embedding-v2	1536	25	2048	中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语
text-embedding-v1		25		中文、英语、西班牙语、法语、葡萄牙语、印尼语
text-embedding-async-v2		100000		中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语		2000万Token 有效期：百炼开通后180天内
text-embedding-async-v1		100000		中文、英语、西班牙语、法语、葡萄牙语、印尼语		2000万Token 有效期：百炼开通后180天内

v1、v2、v3模型的效果数据

模型	MTEB	MTEB（Retrieval task）	CMTEB	CMTEB (Retrieval task)
text-embedding-v1	58.30	45.47	59.84	56.59
text-embedding-v2	60.13	49.49	62.17	62.78
text-embedding-v3	63.39	55.41	68.92	73.23

v3模型三种维度的效果数据

模型	模型维度	MTEB	MTEB（Retrieval task）	CMTEB	CMTEB (Retrieval task)
text-embedding-v3	1024	63.39	55.41	68.92	73.23
text-embedding-v3	768	62.43	54.74	67.90	72.29
text-embedding-v3	512	62.11	54.30	66.81	71.88

v3模型相比v2的更新内容

语种扩充：text-embedding-v3模型对比text-embedding-v2模型扩展了意大利语、波兰语、越南语、泰语等语种，支持语种数量增加到50+。
输入长度扩展：支持编码的输入长度从2048扩展至8192，对text-embedding-v3，8192指文本输入的最大token长度
可变输出连续向量维度：相比text-embedding-v2模型的固定1536向量维度，text-embedding-v3支持用户自定义连续向量的维度，目前可以选择512,768和1024维度；同时为了进一步节省下游任务的使用成本，text-embedding-v3模型在不衰减效果的前提下将最大的向量维度降低至1024维。
不再区分Query/Document类型：text-embedding-v3模型在不降低模型效果的前提下不再区分输入文本的类型，text_type参数无需指定输入的文本是Query还是Document类型。
Sparse向量支持：text-embedding-v3模型同时支持连续向量表示（dense vector）和离散向量表示模型（sparse vector），用户可以在接口参数中指定输出连续向量、离散向量或者同时输出。
效果提升：预训练模型底座和SFT策略优化提升embedding模型整体效果，公开数据评测结果。

v2模型相比v1的更新内容

语种扩充：“text-embedding-v2”模型对比“text-embedding-v1”模型扩展了日语、韩语、德语、俄罗斯语文本向量化的能力。
效果提升：预训练模型底座和SFT策略优化提升embedding模型整体效果，公开数据评测结果。
归一化处理：text-embedding-v2对输出向量结果默认归一化处理。

多模态向量

ONE-PEACE

多模态向量模型将文本、图像、语音转换成一组数字，适用于音视频分类、图像分类、图文检索等。API参考

计费规则：按输入音频、图像和文本的加权条目数计费。加权条目数 = 音频数目 * 音频加权权重(2) + 图像张数 * 图像加权权重(1) + 文字条数 * 文字加权权重(1)

模型名称

数据类型

向量维度

单价

免费额度（注）

multimodal-embedding-one-peace-v1

float(32)

1536

目前仅供免费体验。

免费额度用完后不可调用，敬请关注后续动态。

10,000加权条目数

有效期：百炼开通后180天内

文本分类、抽取、排序

OpenNLU

针对给定的文本（中文或英文）进行信息抽取或文本分类。模型根据输出Token数计费。API参考

模型名称

最大输入Token数

单价（每千Token）

免费额度（注）

opennlu-v1

1024

0.00465元

100万Token

有效期：百炼开通后180天内

文本排序模型

通常用于语义检索，即给定查询 (Query) 和一系列候选文本 (documents)，会根据与查询的语义相关性从高到低对候选文本进行排序。API参考

模型名称	最大Token数	单次请求最大doc数	单行最大输入字符长度	支持语言	单价	免费额度
gte-rerank	4000	500	30000	中、英、日、韩、泰语、西、法、葡、德、印尼语、阿拉伯语等50+语种	限时免费	开通百炼后自动发放

最大Token长度：模型处理的单条（Query+Document）的最大Token数量，超过该最大长度的文本会进行截断。
单行最大输入字符长度：SDK和API能接收的Query和单条Document最大长度。

公开数据评测结果

MTEB中文&英文检索数据集排序结果。BM25召回，NDCG@10指标评测

数据集	CMTEB（中文）	MTEB（英文）
gte-rerank	68.38	67.62

行业

通义法睿

适用于回答法律问题、推荐裁判类案、辅助案情分析、生成法律文书、检索法律知识、审查合同条款等。API参考 | 在线体验

模型名称	上下文长度	最大输入	最大输出	输入成本	输出成本
模型名称	（Token数）			（每千Token）
farui-plus	12k	12k	2k	0.02元