文档

模型列表

更新时间:

百炼提供了丰富多样的模型选择,它集成了通义系列大模型和第三方大模型,涵盖文本、图像、音视频等不同模态。

旗舰模型

旗舰模型

通义new 通义千问-Max

适合复杂任务,推理能力最强

通义new 通义千问-Plus

效果、速度、成本均衡

通义new 通义千问-Turbo

适合简单任务,速度快、成本低

通义new Qwen-Long

支持长达千万字文档,成本低

API调用模型名

(稳定版本)

qwen-max

qwen-plus

qwen-turbo

qwen-long

最大上下文长度

(Token数)

32,768

131,072

131,072

10,000,000

最低输入价格

(每千Token)

0.02元

0.0008元

0.0003元

0.0005元

最低输出价格

(每千Token)

0.06元

0.002元

0.0006元

0.002元

关于详细参数以及更多大模型,请查看下方的表格。

模型总览

类别

模型

说明

文本生成

通义千问

第三方模型

支持Llama百川ChatGLM零一万物等第三方模型。

图像生成

通义万相

可生成图像或编辑图像,适用于生成证件照、电商主图、模特图、各种风格人像图(动漫、国风、二次元等),也可用于抠图、生成背景、更改图片元素等。

第三方模型

支持Stable DiffusionFLUX

语音合成与识别

语音合成

支持CosyVoiceSambert,实现文本转语音,适用于智能语音客服、有声读物、车载导航、教育辅导等场景。

语音识别

支持ParaformerSenseVoice,实现语音转文本,适用于实时会议记录、实时直播字幕、电话客服等场景。

视频生成与编辑

数字人

支持悦动人像EMO,可基于人物肖像和语音,生成数字人视频。

舞蹈视频

支持舞动人像AnimateAnyone,可基于人物图像和预设动作,生成舞蹈视频。

视频编辑

支持视频风格重绘,保留原始人像和物体外观,并对输入的视频帧序列进行风格化重绘。

向量

文本向量

将文本转换成一组可以代表文字的数字,适用于搜索、聚类、推荐、分类任务。

多模态向量

将文本、图像、语音转换成一组数字,适用于音视频分类、图像分类、图文检索等。

行业

通义法睿

适用于法律咨询、案例分析和法规解读等。

文本生成-通义千问

以下是通义千问模型的商业版。相较于开源版,商业版具有最新的能力和改进。

各模型会不定期更新升级。如需使用固定版本,请使用快照版本。快照版本通常维护至下个快照版本发布时间的后一个月。

通义千问-Max

通义千问系列效果最好的模型,适合复杂、多步骤的任务。使用方法 | API参考 | 在线体验

公共云

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen-max

稳定版

8,000

6,000

2,000

0.02元

Batch调用:0.01元

0.06元

Batch调用:0.03元

100万Token

有效期:百炼开通后30天内

2024年9月19日0点后开通百炼的用户,免费额度有效期为180天。

qwen-max-latest

最新版

32,768

30,720

8,192

0.02元

0.06元

qwen-max-2024-09-19

又称qwen-max-0919
当前等同qwen-max-latest

快照版

qwen-max-2024-04-28

又称qwen-max-0428

8,000

6,000

2,000

0.04元

0.12元

qwen-max-2024-04-03

又称qwen-max-0403

qwen-max-2024-01-07

又称qwen-max-0107

qwen-max-longcontext

长上下文

32,000

30,000

8,000

最新的qwen-max-0919模型:显著提升了中英文能力、推理能力、复杂指令理解能力及数学和代码能力,支持8千字的长文本输出,强化了对Table、JSON等结构化数据的理解和生成。

金融云

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(Token数)

(每千Token)

qwen-max

稳定版

8,000

6,000

2,000

0.038元

Batch调用:0.019元

0.114元

Batch调用:0.057元

100万Token

有效期:百炼开通后180天内

qwen-max-2024-04-28

又称qwen-max-0428

快照版

0.038元

0.114元

通义千问-Plus

能力均衡,推理效果、成本和速度介于通义千问-Max和通义千问-Turbo之间,适合中等复杂任务。使用方法 | API参考 | 在线体验

公共云

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen-plus

稳定版

131,072

128,000

8,192

0.0008元

Batch调用:0.0004元

0.002元

Batch调用:0.001元

100万Token

有效期:百炼开通后30天内

2024年9月19日0点后开通百炼的用户,免费额度有效期为180天。

qwen-plus-latest

最新版

0.0008元

0.002元

qwen-plus-2024-09-19

又称qwen-plus-0919
当前等同qwen-plus-latest

快照版

qwen-plus-2024-08-06

又称qwen-plus-0806

0.004元

0.012元

qwen-plus-2024-07-23

又称qwen-plus-0723​

32,000

30,000

8,000

qwen-plus-2024-06-24

又称qwen-plus-0624

qwen-plus-2024-02-06

又称qwen-plus-0206
最新的qwen-plus-0919模型:显著提升了中英文能力、推理能力、复杂指令理解能力及数学和代码能力,支持8千字的长文本输出。

金融云

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(Token数)

(每千Token)

qwen-plus

稳定版

131,072

128,000

8,192

0.00152元

Batch调用:0.00076元

0.0038元

Batch调用:0.0019元

100万Token

有效期:百炼开通后180天内

qwen-plus-2024-06-24

又称qwen-plus-0624

快照版

32,000

30,000

8,000

0.00152元

0.0038元

通义千问-Turbo

通义千问系列速度最快、成本很低的模型,适合简单任务。使用方法 | API参考 | 在线体验

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen-turbo

稳定版

8,000

6,000

2,000

0.0003元

Batch调用:0.00015元

0.0006元

Batch调用:0.0003元

100万Token

有效期:百炼开通后30天内

2024年9月19日0点后开通百炼的用户,免费额度有效期为180天。

qwen-turbo-latest

最新版

131,072

129,024

8,192

0.0003元

0.0006元

qwen-turbo-2024-09-19

又称qwen-turbo-0919
当前等同qwen-turbo-latest

快照版

qwen-turbo-2024-06-24

又称qwen-turbo-0624

8,000

6,000

2,000

0.002元

0.006元

qwen-turbo-2024-02-06

又称qwen-turbo-0206
最新的qwen-turbo-0919模型:显著提升了中英文能力、推理能力、复杂指令理解能力及数学和代码能力,支持8千字的长文本输出,强化了对Table、JSON等结构化数据的理解和生成。

Qwen-Long

支持总结和分析长达千万字的文档,且成本极低。使用方法 | API参考 | 在线体验

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen-long

10,000,000

10,000,000

6,000

0.0005元

0.002元

100万Token

有效期:百炼开通后30天内

2024年9月19日0点后开通百炼的用户,免费额度有效期为180天。

通义千问VL

通义千问VL是具有视觉(图像)理解能力的文本生成模型,不仅能进行OCR(图片文字识别),还能进一步总结和推理,例如从商品照片中提取属性,根据习题图进行解题等。使用方法 | API参考 | 在线体验

通义千问VL模型按输入和输出的总Token数进行计费。
图像转换为Token的规则:512x512像素的图像约等于334个Token,其他分辨率图像按比例换算;最小单位是28x28像素,即每28x28像素对应一个Token,如果图像的长或宽不是28的整数倍,则向上取整至28的整数倍;一张图最少4个Token。

模型名称

版本

上下文长度

最大输入

最大输出

输入输出单价

免费额度

(注)

(Token数)

(每千Token)

qwen-vl-max

相比qwen-vl-plus再次提升视觉推理和指令遵循能力,在更多复杂任务中提供最佳性能

稳定版

32,000

30,000

单图最大16384

2,000

0.02元

100万Token

有效期:百炼开通后30天内

2024年9月19日0点后开通百炼的用户,免费额度有效期为180天。

qwen-vl-max-latest

最新版

qwen-vl-max-2024-08-09

又称qwen-vl-max-0809
此版本扩展上下文至32k,增强图像理解能力,能更好地识别图片中的多语种和手写体。

快照版

qwen-vl-max-2024-02-01

又称qwen-vl-max-0201

快照版

8,000

6,000

单图最大1280

qwen-vl-plus-latest

最新版

32,000

30,000

单图最大16384

0.008元

qwen-vl-plus-2024-08-09

又称qwen-vl-plus-0809

快照版

qwen-vl-plus

大幅提升细节识别和文字识别能力,支持超百万像素分辨率和任意宽高比的图像。在广泛的视觉任务中提供卓越性能

稳定版

8,000

6,000

单图最大1280

通义千问Audio

通义千问Audio是音频理解模型,支持输入多种音频(人类语音、自然音、音乐、歌声)和文本,并输出文本。该模型不仅能对输入的音频进行转录,还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。使用方法 | API参考

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen-audio-turbo

8,000

6,000

1,500

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

10万Token

有效期:百炼开通后180天内

通义千问数学模型

通义千问数学模型是专门用于数学解题的语言模型。使用方法 | API参考 | 在线体验

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen-math-plus

4,096

3,072

3,072

0.004元

0.012元

100万Token

有效期:百炼开通后180天内

qwen-math-plus-latest

qwen-math-plus-2024-09-19

又称qwen-math-plus-0919
当前等同qwen-math-plus,qwen-math-plus-latest

qwen-math-plus-2024-08-16

又称qwen-math-plus-0816

qwen-math-turbo

0.002元

0.006元

qwen-math-turbo-latest

qwen-math-turbo-2024-09-19

又称qwen-math-turbo-0919
当前等同qwen-math-turbo,qwen-math-turbo-latest

通义千问Coder

通义千问代码模型。使用方法 | API参考 | 在线体验

模型名称

版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen-coder-turbo

稳定版

131,072

129,024

8,192

0.002元

0.006元

100万Token

有效期:百炼开通后180天内

qwen-coder-turbo-latest

最新版

qwen-coder-turbo-2024-09-19

又称qwen-coder-turbo-0919
当前等同qwen-coder-turbo-latest、qwen-coder-turbo

快照版

文本生成-通义千问-开源版

  • 模型名称中,xxb表示参数规模,例如qwen2-72b-instruct表示参数规模为72B,即720亿。

  • 百炼支持调用通义千问的开源版,您无需本地部署模型。对于开源版,建议使用Qwen2.5或Qwen2模型。

Qwen2.5

Qwen2.5是Qwen大型语言模型的最新系列。针对Qwen2.5,我们发布了一系列基础语言模型和指令调优语言模型,参数规模从5亿到720亿不等。Qwen2.5在Qwen2基础上进行了以下改进:

  • 在我们最新的大规模数据集上进行预训练,包含多达18万亿个Token。

  • 由于我们在这些领域的专业专家模型,模型的知识显著增多,编码和数学能力也大大提高。

  • 在遵循指令、生成长文本(超过8K个标记)、理解结构化数据(例如表格)和生成结构化输出(尤其是JSON)方面有显著改进。对系统提示的多样性更具弹性,增强了聊天机器人的角色扮演实现和条件设置。

  • 支持超过29种语言,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。

使用方法 | API参考 | 在线体验

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen2.5-72b-instruct

131,072

129,024

8,192

0.004元

0.012元

100万Token

有效期:百炼开通后180天内

qwen2.5-32b-instruct

0.0035元

0.007元

qwen2.5-14b-instruct

0.002元

0.006元

qwen2.5-7b-instruct

0.001元

0.002元

qwen2.5-3b-instruct

32,768

30,720

限时免费

qwen2.5-1.5b-instruct

qwen2.5-0.5b-instruct

Qwen2

阿里云的通义千问2-开源版。使用方法 | API参考 | 在线体验

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen2-72b-instruct

131,072

128,000

6,144

0.005元

0.01

100万Token

有效期:百炼开通后180天内

qwen2-57b-a14b-instruct

65,536

63,488

0.0035

0.007

qwen2-7b-instruct

131,072

128,000

0.001

0.002

qwen2-1.5b-instruct

32,768

30,720

限时免费

qwen2-0.5b-instruct

Qwen1.5

阿里云的通义千问1.5-开源版。使用方法 | API参考 | 在线体验

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen1.5-110b-chat

32,000

30,000

8,000

0.007元

0.014元

100万Token

有效期:百炼开通后30天内

2024年9月19日0点后开通百炼的用户,免费额度有效期为180天。

qwen1.5-72b-chat

2,000

0.005元

0.01元

qwen1.5-32b-chat

0.0035元

0.007元

qwen1.5-14b-chat

8,000

6,000

0.002元

0.004元

qwen1.5-7b-chat

0.001元

0.002元

qwen1.5-1.8b-chat

32,000

30,000

限时免费

qwen1.5-0.5b-chat

Qwen

阿里云的通义千问-开源版。使用方法 | API参考 | 在线体验

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen-72b-chat

32,000

30,000

2,000

0.02元

0.02元

100万Token

有效期:百炼开通后30天内

2024年9月19日0点后开通百炼的用户,免费额度有效期为180天。

qwen-14b-chat

8,000

6,000

0.008元

0.008元

qwen-7b-chat

7,500

1,500

0.006元

0.006元

qwen-1.8b-chat

8,000

2,000

限时免费

qwen-1.8b-longcontext-chat

32,000

30,000

限时免费(需申请)

Qwen-VL

阿里云的通义千问VL开源版。使用方法 | API参考

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen-vl-v1

8,000

6,000

1,500

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

10万Token

有效期:百炼开通后180天内

qwen-vl-chat-v1

Qwen-Audio

阿里云的通义千问Audio开源版。使用方法 | API参考

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen2-audio-instruct

相比qwen-audio-chat提升了音频理解能力,且新增了语音聊天能力。

8,000

6,000

1,500

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

10万Token

有效期:百炼开通后180天内

qwen-audio-chat

Qwen-Math

基于Qwen模型构建的专门用于数学解题的语言模型。Qwen2.5-Math相比Qwen2-Math有了实质性的改进。Qwen2.5-Math支持中文英文,并整合了多种推理方法,包括CoT(Chain of Thought)、PoT(Program of Thought)和 TIR(Tool-Integrated Reasoning)。使用方法 | API参考| 在线体验

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen2.5-math-72b-instruct

4,096

3,072

3,072

0.004元

0.012元

100万Token

有效期:百炼开通后180天内

qwen2.5-math-7b-instruct

0.001元

0.002元

qwen2.5-math-1.5b-instruct

限时免费

qwen2-math-72b-instruct

0.004元

0.012元

qwen2-math-7b-instruct

0.001元

0.002元

qwen2-math-1.5b-instruct

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

Qwen-Coder

通义千问代码模型开源版。Qwen2.5-Coder相比CodeQwen1.5有了实质性的改进。Qwen2.5-Coder在包含5.5万亿Token的编程相关数据上进行了训练,使即使较小的编程专用模型也能在编程评估基准测试中表现出媲美大型语言模型的竞争力。API参考 | 在线体验

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

qwen2.5-coder-7b-instruct

131,072

129,024

8,192

0.001元

0.002元

100万Token

有效期:百炼开通后180天内

qwen2.5-coder-1.5b-instruct

限时免费

文本生成-第三方模型

Llama

Meta推出的大语言模型。API参考 | 在线体验(需申请)

模型名称

上下文长度

最大输入

输入输出成本

免费额度

(注)

(Token数)

llama3.1-405b-instruct

128,000

128,000

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

100万Token(需申请)

有效期:百炼开通后30天内

llama3.1-70b-instruct

llama3.1-8b-instruct

llama3-70b-instruct

8,000

8,000

100万Token(需申请)

有效期:百炼开通后180天内

llama3-8b-instruct

llama2-13b-chat-v2

4,000

4,000

100万Token(需申请)

有效期:申请通过后180天内

llama2-7b-chat-v2

百川

百川智能推出的大语言模型。API参考 | 在线体验(需申请)

模型名称

上下文长度

最大输入

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

baichuan2-turbo

32,000

32,000

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

100万Token(需申请)

有效期:申请通过后180天内

百川-开源版

来自百川智能,该系列模型在平台中支持微调训练和独占实例部署。API参考 | 在线体验(需申请)

模型名称

上下文长度

最大输入

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

baichuan2-13b-chat-v1

4096

4096

0.008元

0.008元

100万Token(需申请)

有效期:百炼开通后180天内

baichuan2-7b-chat-v1

0.006元

0.006元

baichuan-7b-v1

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

100万Token(需申请)

有效期:百炼开通后180天内

ChatGLM

智谱AI推出的大语言模型。API参考 | 在线体验

模型名称

上下文长度

最大输入

输入成本

输出成本

免费额度

(注)

(Token数)

(每千Token)

chatglm3-6b

7500

7500

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

100万Token

有效期:百炼开通后180天内

chatglm-6b-v2

6500

6500

0.006元

0.006元

100万Token(需申请)

有效期:百炼开通后180天内

零一万物

零一万物推出的大语言模型。API参考 | 在线体验(需申请)

模型名称

上下文长度

最大输入

输入输出成本

免费额度

(注)

(Token数)

yi-large

32,000

32,000

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

100万Token(需申请)

有效期:申请通过后180天内

yi-medium

yi-large-rag

有实时联网能力

16,000

16,000

yi-large-turbo

月之暗面

月之暗面推出的大语言模型。API参考 | 在线体验(需申请)

模型名称

上下文长度

最大输入

输入输出成本

免费额度

(注)

(Token数)

moonshot-v1-8k

8,000

8,000

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

100万Token(需申请)

有效期:申请通过后180天内

moonshot-v1-32k

32,000

32,000

moonshot-v1-128k

128,000

128,000

MiniMax

MiniMax推出的大语言模型。API参考 | 在线体验(需申请)

模型名称

说明

上下文长度

最大输入

输入输出成本

免费额度

(注)

(Token数)

abab6.5g-chat

适合英文场景

8,000

8,000

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

100万Token(需申请)

有效期:申请通过后180天内

abab6.5t-chat

适合中文场景

abab6.5s-chat

适合超长文本场景

245,000

245,000

姜子牙

IDEA研究院推出的大语言模型。API参考

模型名称

输入输出成本

ziya-llama-13b-v1

限时免费(需申请)

BELLE

BELLE推出的大语言模型。API参考

模型名称

输入输出成本

belle-llama-13b-2m-v1

限时免费(需申请)

元语

元语智能推出的大语言模型。API参考

模型名称

输入输出成本

chatyuan-large-v2

限时免费(需申请)

BiLLa

BiLLa是开源的推理能力增强的中英双语LLaMA模型,较大提升LLaMA的中文理解能力, 并尽可能减少对原始LLaMA英文能力的损伤。API参考

模型名称

输入输出成本

billa-7b-sft-v1

限时免费(需申请)

图像生成-通义万相与图像编辑

通用图像生成

可以基于输入的文本生成图片。此外,还支持输入参考图片,并参考图片内容或者图片风格进行图片生成。API参考 | 在线体验

模型名称

示例输入

示例输出

单价

免费额度(注)

wanx-v1

参考图

提示词:一只小狗在笑

小狗在笑

0.16元/张

500张

有效期:百炼开通后180天内

涂鸦作画

基于输入的手绘图加文字描述,即可生成精美的涂鸦绘画作品。API参考

模型名称

示例输入

示例输出

单价

免费额度(注)

wanx-sketch-to-image-lite

image

提示词:一棵参天大树

image

0.06元/张

500张

有效期:百炼开通后180天内

图像布局重绘

根据用户输入的原始图片和局部涂抹图、prompt提示词文字内容,生成符合语义描述的多样化风格的局部重绘图像。API参考

模型名称

示例输入

示例输出

单价

免费额度(注)

wanx-x-painting

image

布局涂抹图:

image

提示词:一只狗戴着红色眼镜

image

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

500张

有效期:百炼开通后180天内

人像风格重绘

人像风格重绘可以将输入的人物图像进行多种风格化的重绘生成,使新生成的图像在兼顾原始人物相貌的同时,带来不同风格的绘画效果。API参考

模型名称

示例输入

示例输出

单价

免费额度(注)

wanx-style-repaint-v1

image

风格:清雅国风

image

0.12元/张

500张

有效期:百炼开通后180天内

图像背景生成

图像背景生成可以基于输入的前景图像素材拓展生成背景信息,实现自然的光影融合效果,与细腻的写实画面生成。支持文本描述、图像引导等多种方式,同时支持对生成的图像智能添加文字内容。API参考

模型名称

示例输入

示例输出

单价

免费额度(注)

wanx-background-generation-v2

image

提示词:在桌面上,旁边有插着花朵的花瓶,背后是纯色高级的背景墙。

image

0.08元/张

500张

有效期:百炼开通后180天内

图像画面扩展

图像画面大模型,对输入图像进行画面自由扩展,支持旋转画面,支持按照扩展系数和扩展像素数两种方式进行扩图。用户可以通过指定宽度、高度画面扩展比例或者左、右、上、下的扩展的像素值来控制画面扩展,可用于创意娱乐、辅助作图、画面设计、影视后期制作等场景。API参考

模型名称

示例输入

示例输出

单价

免费额度(注)

image-out-painting

image

image

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

500张

有效期:百炼开通后180天内

人物实例分割

输入人物图像,模型识别出图像中的不同人物对象并画出每个对象边界的像素级掩码。API参考

模型名称

示例输入

示例输出

单价

免费额度

image-instance-segmentation

image

输出结果1:像素级掩码图像

image

输出结果2:可视化图像

image

限时免费

图像擦除补全

输入图像并指定待擦除区域掩码图像以及保留区域掩码图像,模型在保留原图背景的同时擦除指定图像区域。API参考

针对人物图像的擦除、补全,推荐通过人物实例分割得到图像中不同人物对象的图像掩码,选择完整的人物图像掩码擦除一个或多个人物。

模型名称

示例输入

示例输出

单价

免费额度

image-erase-completion

图片擦除2-原图.png

原图

图片擦除2-擦除.png

待擦除区域

图片擦除2-保留.png

保留区域

image

限时免费

动漫人物生成

Cosplay动漫人物生成通过输入人像图片和卡通形象图片,可快速生成人物卡通写真。API参考

模型名称

示例输入

示例输出

单价

免费额度(注)

wanx-style-cosplay-v1

image

image

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

300张

有效期:百炼开通后180天内

虚拟模特

可以对上传的真人实拍商品展示图进行智能生成,将其中的模特和背景替换为心仪的内容,在保持人物姿态不变的情况下,使用虚拟模特对商品进行更加精美、多样的展示。支持各种与模特产生互动的商品,如手持小商品、服装、鞋靴、配饰等。

V2相比V1,生成图片分辨率为短边1024或2048,支持改变分辨率,文本引导效果更准确。API参考

模型名称

版本

V2示例输入

V2示例输出

单价

免费额度(注)

wanx-virtualmodel

V1

image

image

image

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

500张

有效期:百炼开通后180天内

virtualmodel-v2

V2

限时免费

鞋靴模特

鞋靴模特支持输入多视角鞋靴系列图片,同时对输入模特模板图的鞋子区域进行鞋靴AI试穿,实现模特鞋靴布局重绘生成,最终生成图片的效果,布局自然、细节丰富、画面细腻、试穿结果逼真。可用于模特商品图设计、新鞋AI试穿、模特穿戴布局重绘等场景。API参考

模型名称

示例输入

示例输出

单价

免费额度

shoemodel-v1

image

image

image

公测中

创意海报生成

根据您的要求自动生成海报的背景和文字排版,支持多种海报风格。无需设计基础,轻松制作出彩作品,让创意触手可及。API参考

模型名称

示例输入

示例输出

单价

免费额度(注)

wanx-poster-generation-v1

"title":"元宵节",

"sub_title":"正月十五",

"body_text":"团圆时节,汤圆香甜,祝你幸福美满!",

"prompt_text_zh":"灯笼,小猫,梅花",

"wh_ratios":"竖版",

"lora_name":"童话油画",

image

限时免费

500张

有效期:百炼开通后180天内

图配文

您只要输入背景图和文字,就能将文字排版到图片上,形成一张完整的图文海报。API参考

模型名称

示例输入

示例输出

单价

wanx-ast

2

"title":"Lorem Ipsum",

"subtitle":"Duis aute irure dolor in reprehenderit",

"text":"VIEW NOW",

"underlay": 1,

"logo": logo.png

快速开始生成结果

限时免费

人物写真生成-FaceChain

  • 人物图像检测:对用户上传的人物图像进行检测,判断其中所包含的人脸是否符合Facechain微调所需的标准,检测维度包括人脸数量、大小、角度、光照、清晰度等多维度,支持图像组输入,并返回每张图像对应的检测结果。API参考

  • 人物形象训练:对上传的图像进行模型训练,从而获得该图像中对应人物的resource,基于该resource可以实现人物的写真生成。API参考

  • 人物写真生成:基于人物形象训练已经得到的形象,可以继续通过人物生成写真模型完成该形象的写真生成,支持多种预设风格,包括证件照、商务写真等。API参考

模型名称

说明

示例输入

示例输出

单价

免费额度(注)

facechain-facedetect

人物图像检测

image

风格:商务写真

image

限时免费

限时免费

facechain-finetune

人物形象训练

2.5元/次

50次

有效期:申请通过后180天内

facechain-generation

人物写真生成

0.18元/张

500张

有效期:申请通过后180天内

创意文字生成-WordArt锦书

  • 文字纹理生成:可以对输入的文字内容或文字图片进行创意设计,根据提示词内容对文字添加材质和纹理,实现立体凸显或场景融合的效果,生成效果精美、风格多样的艺术字,结合背景可以直接作为文字海报使用。API参考

  • 文字变形:可以对输入的文字边缘轮廓进行创意变形,根据提示词内容进行边缘变化,实现一种字体的更多种创意用法,返回带有文字内容的黑底白色mask图。API参考

  • 百家姓生成:可以输入姓氏文字进行创意设计,支持根据提示词和风格引导图进行自定义设计,同时提供多种精美的预设风格模板,生成图片可以应用于个性社交场景,如作为个人头像、屏幕壁纸、字体表情包等。API参考

模型名称

说明

示例输入

示例输出

单价

免费额度(注)

wordart-texture

文字纹理生成

image

提示词:精美玉石

风格类型:立体材质

image

0.08元/张

500张

有效期:百炼开通后365天内

wordart-semantic

文字变形

文字:桂林山水

提示词:山峦叠嶂、漓江蜿蜒、岩石奇秀

image

0.24元/张

wordart-surnames

百家姓生成

百家姓:沈

风格:奇幻楼阁

image

暂无

500张

有效期:百炼开通后180天内

AI试衣

  • AI试衣一款虚拟试衣图片生成模型,基于人像照片及服装图生成穿着后的试衣图片。API参考

  • AI试衣-图片精修是对AI试衣生成的效果图进行二次生成,输出还原度更高的精修试衣效果图。API参考

模型名称

说明

示例输入

示例输出

免费额度(注)

aitryon

AI试衣

image

image

300张

有效期:百炼开通后180天内

aitryon-refiner

AI试衣-图片精修

100张

有效期:百炼开通后180天内

AI试衣价格表

模型名称

计量单价

折扣

阶梯层级

aitryon

0.60元/张

生成数量 ≤ 100张

0.55元/张

9.2折

100张 < 生成数量 ≤ 500张

0.50元/张

8.4折

500张 < 生成数量 ≤ 1000张

0.45元/张

7.5折

1000张 < 生成数量 ≤ 5000张

0.40元/张

6.7折

5000张 < 生成数量 ≤ 1万张

0.35元/张

5.8折

1万张 < 生成数量 ≤ 10万张

0.30元/张

5折

生成数量 > 10万张

aitryon-refiner

0.30元/张

生成数量 ≤ 25张

0.275元/张

9.2折

25张 < 生成数量 ≤ 125张

0.25元/张

8.4折

125张 < 生成数量 ≤ 250张

0.225元/张

7.5折

250张 < 生成数量 ≤ 1250张

0.2元/张

6.7折

1250张 < 生成数量 ≤ 2500张

0.175元/张

5.8折

2500张 < 生成数量 ≤ 2.5万张

0.15元/张

5折

生成数量 > 2.5万张

图像生成-第三方模型

Stable Diffusion

API参考

模型名称

说明

单价

免费额度(注)

stable-diffusion-xl

相比v1.5做了重大改进,被认为是当前开源文生图模型的SOTA水准,具体改进包括:unet backbone是之前的3倍;增加了refinement模块用于改善生成图片的质量;更高效的训练技巧等。

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

500张

有效期:申请通过后180天内

stable-diffusion-v1.5

通过clip模型将文本的embedding和图片embedding映射到相同空间,从而通过输入文本并结合unet的稳定扩散预测噪声的能力,生成图片。是一款基础的文生图模型,得到了业界广泛使用。

FLUX

Black Forest Labs的开源文生图模型,尤其擅长生成包含文字、多主体、手部细节的图片。

API详情 | 在线体验

模型名称

说明

单价

免费额度(注)

flux-merged

结合了flux-dev的深度和flux-schnell的快速执行。

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

1000张

有效期:百炼开通后180天内

flux-dev

开发者版,面向非商业应用,具有与专业版相近的图像质量和指令遵循能力,同时运行效率更高。

flux-schnell

快速版,轻量级模型。

计费方案即将推出。

语音合成(文本转语音)

CosyVoice

CosyVoice是通义实验室依托大规模预训练语言模型,深度融合文本理解和语音生成的新一代生成式语音合成大模型,支持文本至语音的实时流式合成。API参考 | 在线体验

模型名称

单价

免费额度

cosyvoice-v1

2元/万字符

根据待合成字符数计费(其中1个汉字算2个字符,英文、标点符号、空格均按照1个字符计费)。

每主账号每模型每月2000字符。

音色列表:

模型名称

voice参数

音色

音频试听

适用场景

语言

默认采样率(Hz)

默认音频格式

cosyvoice-v1

longxiaochun

龙小淳

语音助手、

导航播报、

聊天数字人

中文+英文

22050

mp3

cosyvoice-v1

longxiaoxia

龙小夏

语音助手、聊天数字人

中文

22050

mp3

cosyvoice-v1

longxiaocheng

龙小诚

语音助手、导航播报、聊天数字人

中文+英文

22050

mp3

cosyvoice-v1

longxiaobai

龙小白

聊天数字人、有声书、语音助手

中文

22050

mp3

cosyvoice-v1

longlaotie

龙老铁

新闻播报、有声书、语音助手、直播带货、导航播报

中文东北口音

22050

mp3

cosyvoice-v1

longshu

龙书

有声书、语音助手、导航播报、新闻播报、智能客服

中文

22050

mp3

cosyvoice-v1

longshuo

龙硕

语音助手、导航播报、新闻播报、客服催收

中文

22050

mp3

cosyvoice-v1

longjing

龙婧

语音助手、导航播报、新闻播报、客服催收

中文

22050

mp3

cosyvoice-v1

longmiao

龙妙

客服催收、导航播报、有声书、语音助手

中文

22050

mp3

cosyvoice-v1

longyue

龙悦

语音助手、诗词朗诵、有声书朗读、导航播报、新闻播报、客服催收

中文

22050

mp3

cosyvoice-v1

longyuan

龙媛

有声书、语音助手、聊天数字人

中文

22050

mp3

cosyvoice-v1

longfei

龙飞

会议播报、新闻播报、有声书

中文

22050

mp3

cosyvoice-v1

longjielidou

龙杰力豆

新闻播报、有声书、聊天助手

中文+英文

22050

mp3

cosyvoice-v1

longtong

龙彤

有声书、导航播报、聊天数字人

中文

22050

mp3

cosyvoice-v1

longxiang

龙祥

新闻播报、有声书、导航播报

中文

22050

mp3

cosyvoice-v1

loongstella

Stella

语音助手、直播带货、导航播报、客服催收、有声书

中文+英文

22050

mp3

cosyvoice-v1

loongbella

Bella

语音助手、客服催收、新闻播报、导航播报

中文

22050

mp3

Sambert

Sambert语音合成API基于达摩院改良的自回归韵律模型,支持文本至语音的实时流式合成。API参考

模型名称

单价

免费额度

见下表

1元/万字符

根据待合成字符数计费(其中1个汉字算2个字符,英文、标点符号、空格均按照1个字符计费)。SSML标签内容不计费。

每主账号每模型每月3万字符。

模型(音色)列表:

模型名称

音色

音频试听

时间戳支持

适用场景

特色

语言

默认采样率(Hz)

sambert-zhinan-v1

知楠

通用场景

广告男声

中文+英文

48k

sambert-zhiqi-v1

知琪

通用场景

温柔女声

中文+英文

48k

sambert-zhichu-v1

知厨

新闻播报

舌尖男声

中文+英文

48k

sambert-zhide-v1

知德

新闻播报

新闻男声

中文+英文

48k

sambert-zhijia-v1

知佳

新闻播报

标准女声

中文+英文

48k

sambert-zhiru-v1

知茹

新闻播报

新闻女声

中文+英文

48k

sambert-zhiqian-v1

知倩

配音解说、新闻播报

资讯女声

中文+英文

48k

sambert-zhixiang-v1

知祥

配音解说

磁性男声

中文+英文

48k

sambert-zhiwei-v1

知薇

阅读产品简介

萝莉女声

中文+英文

48k

sambert-zhihao-v1

知浩

通用场景

咨询男声

中文+英文

16k

sambert-zhijing-v1

知婧

通用场景

严厉女声

中文+英文

16k

sambert-zhiming-v1

知茗

通用场景

诙谐男声

中文+英文

16k

sambert-zhimo-v1

知墨

通用场景

情感男声

中文+英文

16k

sambert-zhina-v1

知娜

通用场景

浙普女声

中文+英文

16k

sambert-zhishu-v1

知树

通用场景

资讯男声

中文+英文

16k

sambert-zhistella-v1

知莎

通用场景

知性女声

中文+英文

16k

sambert-zhiting-v1

知婷

通用场景

电台女声

中文+英文

16k

sambert-zhixiao-v1

知笑

通用场景

资讯女声

中文+英文

16k

sambert-zhiya-v1

知雅

通用场景

严厉女声

中文+英文

16k

sambert-zhiye-v1

知晔

通用场景

青年男声

中文+英文

16k

sambert-zhiying-v1

知颖

通用场景

软萌童声

中文+英文

16k

sambert-zhiyuan-v1

知媛

通用场景

知心姐姐

中文+英文

16k

sambert-zhiyue-v1

知悦

客服

温柔女声

中文+英文

16k

sambert-zhigui-v1

知柜

阅读产品简介

直播女声

中文+英文

16k

sambert-zhishuo-v1

知硕

数字人

自然男声

中文+英文

16k

sambert-zhimiao-emo-v1

知妙(多情感)

阅读产品简介、数字人、直播

多种情感女声

中文+英文

16k

sambert-zhimao-v1

知猫

阅读产品简介、配音解说、数字人、直播

直播女声

中文+英文

16k

sambert-zhilun-v1

知伦

配音解说

悬疑解说

中文+英文

16k

sambert-zhifei-v1

知飞

配音解说

激昂解说

中文+英文

16k

sambert-zhida-v1

知达

新闻播报

标准男声

中文+英文

16k

sambert-camila-v1

Camila

通用场景

西班牙语女声

西班牙语

16k

sambert-perla-v1

Perla

通用场景

意大利语女声

意大利语

16k

sambert-indah-v1

Indah

通用场景

印尼语女声

印尼语

16k

sambert-clara-v1

Clara

通用场景

法语女声

法语

16k

sambert-hanna-v1

Hanna

通用场景

德语女声

德语

16k

sambert-beth-v1

Beth

通用场景

咨询女声

美式英文

16k

sambert-betty-v1

Betty

通用场景

客服女声

美式英文

16k

sambert-cally-v1

Cally

通用场景

自然女声

美式英文

16k

sambert-cindy-v1

Cindy

通用场景

对话女声

美式英文

16k

sambert-eva-v1

Eva

通用场景

陪伴女声

美式英文

16k

sambert-donna-v1

Donna

通用场景

教育女声

美式英文

16k

sambert-brian-v1

Brian

通用场景

客服男声

美式英文

16k

sambert-waan-v1

Waan

通用场景

泰语女声

泰语

16k

语音识别(语音转文本)

Paraformer

Paraformer语音识别服务只识别并转写音频中的语音内容,非语音内容不计费。实际转写时长通常短于原始音频时长。由于采用AI判断,可能存在少许误差。
默认情况下,仅转写并计费多轨音频文件的首轨。若指定转写多个音轨,则各音轨按语音时长单独计费。
关于实际计费时长,请查看返回结果中的content_duration字段。

录音文件识别

API参考 | 在线体验

模型名称

支持的语言

支持的采样率

适用的格式

单价

免费额度

paraformer-v2

中文普通话、中文方言(粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话、江西话、云南话、上海话)、英语、日语、韩语

任意

视频直播、电话客服等

0.00008元/秒

36,000秒(10小时)

每月1日0点自动发放

有效期1个月

paraformer-8k-v2

中文普通话

8kHz

电话语音

paraformer-v1

中文普通话、英语

任意

音频或视频

paraformer-8k-v1

中文普通话

8kHz

电话语音

paraformer-mtl-v1

中文普通话、中文方言(粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话)、英语、日语、韩语、西班牙语、印尼语、法语、德语、意大利语、马来语

16kHz及以上

音频或视频

实时语音识别

API参考 | 在线体验

模型名称

支持的语言

支持的采样率

适合场景

单价

免费额度

paraformer-realtime-v2

中文(含粤语等各种方言)、英文、日语、韩语

支持多个语种自由切换

16kHz

视频直播、会议等

0.00024元/秒

36,000秒(10小时)

每月1日0点自动发放

有效期1个月

paraformer-realtime-v1

中文

paraformer-realtime-8k-v2

8kHz

电话客服等

paraformer-realtime-8k-v1

SenseVoice

录音文件识别

专注于高精度多语言语音识别,还能识别情绪(高兴、悲伤、生气等)和特定事件(背景音乐、歌唱、掌声和笑声等)。API参考

只识别并转写音频中的语音内容,非语音内容不计费。实际转写时长通常短于原始音频时长。由于采用AI判断,可能存在少许误差。
默认情况下,仅转写并计费多轨音频文件的首轨。若指定转写多个音轨,则各音轨按语音时长单独计费。
关于实际计费时长,请查看返回结果中的content_duration_in_milliseconds字段。

模型名称

支持的语言

适用的格式

单价

免费额度

sensevoice-v1

超过50种语言(中、英、日、韩、粤等)

附录:支持语言列表

音频或视频

0.0007 元/秒

36,000秒(10小时)

每月1日0点自动发放

有效期1个月

视频合成

数字人-悦动人像EMO

基于人物肖像图片和人声音频文件,生成人物肖像动态视频。使用时需依次调用下述两个模型。EMO图像检测API详情 | EMO 视频生成 API详情

模型名称

说明

计费

免费额度

emo-detect

检测输入图像是否符合要求

当前仅支持部署后调用,仅收取部署费用。

部署单价:20元/算力单元/小时

emo

生成人物肖像动态视频

舞蹈视频-舞动人像AnimateAnyone

基于人物图片和预设的动作序列,生成人物动作视频。使用时需依次调用下述两个模型。AnimateAnyone图像检测 API详情 | AnimateAnyone视频生成API详情

模型名称

说明

计费

免费额度

animate-anyone-detect

检测输入图像是否符合要求

当前仅支持部署后调用,仅收取部署费用。

部署单价:20元/算力单元/小时

animate-anyone

生成人物全身动作视频

视频编辑与生成

支持根据用户输入的文字内容,生成符合语义描述的不同风格的视频,或者根据用户输入的视频,进行视频风格重绘。API参考

模型名称

说明

计费

免费额度

video-style-transform

视觉风格重绘

限时免费

文本向量

文本向量模型用于将文本转换成一组可以代表文字的数字,适用于搜索、聚类、推荐、分类任务。模型根据输出Token数计费。同步接口API详情 | 批处理接口API详情

模型名称

向量维度

最大行数

单行最大处理Token数

支持语种

单价

(每千Token)

免费额度(注)

text-embedding-v3

1024

768

512

6

8192

中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语等50+语种

0.0007元

50万Token

有效期:百炼开通后180天内

text-embedding-v2

1536

25

2048

中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语

text-embedding-v1

中文、英语、西班牙语、法语、葡萄牙语、印尼语

text-embedding-async-v2

100000

中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语

2000万Token

有效期:百炼开通后180天内

text-embedding-async-v1

中文、英语、西班牙语、法语、葡萄牙语、印尼语

v1、v2、v3模型的效果数据

模型

MTEB

MTEB(Retrieval task)

CMTEB

CMTEB (Retrieval task)

text-embedding-v1

58.30

45.47

59.84

56.59

text-embedding-v2

60.13

49.49

62.17

62.78

text-embedding-v3

63.39

55.41

68.92

73.23

v3模型三种维度的效果数据

模型

模型维度

MTEB

MTEB(Retrieval task)

CMTEB

CMTEB (Retrieval task)

text-embedding-v3

1024

63.39

55.41

68.92

73.23

text-embedding-v3

768

62.43

54.74

67.90

72.29

text-embedding-v3

512

62.11

54.30

66.81

71.88

v3模型相比v2的更新内容

  • 语种扩充:text-embedding-v3模型对比text-embedding-v2模型扩展了意大利语、波兰语、越南语、泰语等语种,支持语种数量增加到50+。

  • 输入长度扩展:支持编码的输入长度从2048扩展至8192,对text-embedding-v3,8192指文本输入的最大token长度

  • 可变输出连续向量维度:相比text-embedding-v2模型的固定1536向量维度,text-embedding-v3支持用户自定义连续向量的维度,目前可以选择512,768和1024维度;同时为了进一步节省下游任务的使用成本,text-embedding-v3模型在不衰减效果的前提下将最大的向量维度降低至1024维。

  • 不再区分Query/Document类型:text-embedding-v3模型在不降低模型效果的前提下不再区分输入文本的类型,text_type参数无需指定输入的文本是Query还是Document类型。

  • Sparse向量支持:text-embedding-v3模型同时支持连续向量表示(dense vector)和离散向量表示模型(sparse vector),用户可以在接口参数中指定输出连续向量、离散向量或者同时输出。

  • 效果提升:预训练模型底座和SFT策略优化提升embedding模型整体效果,公开数据评测结果。

v2模型相比v1的更新内容

  • 语种扩充:“text-embedding-v2”模型对比“text-embedding-v1”模型扩展了日语、韩语、德语、俄罗斯语文本向量化的能力。

  • 效果提升:预训练模型底座和SFT策略优化提升embedding模型整体效果,公开数据评测结果。

  • 归一化处理:text-embedding-v2对输出向量结果默认归一化处理。

多模态向量

ONE-PEACE

多模态向量模型将文本、图像、语音转换成一组数字,适用于音视频分类、图像分类、图文检索等。API参考

计费规则:按输入音频、图像和文本的加权条目数计费。加权条目数 = 音频数目 * 音频加权权重(2) + 图像张数 * 图像加权权重(1) + 文字条数 * 文字加权权重(1)

模型名称

数据类型

向量维度

单价

免费额度(注)

multimodal-embedding-one-peace-v1

float(32)

1536

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

10,000加权条目数

有效期:百炼开通后180天内

文本分类、抽取、排序

OpenNLU

针对给定的文本(中文或英文)进行信息抽取或文本分类。模型根据输出Token数计费。API参考

模型名称

最大输入Token数

单价(每千Token)

免费额度(注)

opennlu-v1

1024

0.00465元

100万Token

有效期:百炼开通后180天内

文本排序模型

通常用于语义检索,即给定查询 (Query) 和一系列候选文本 (documents),会根据与查询的语义相关性从高到低对候选文本进行排序。API参考

模型名称

最大Token数

单次请求最大doc数

单行最大输入字符长度

支持语言

单价

免费额度

gte-rerank

4000

500

30000

中、英、日、韩、泰语、西、法、葡、德、印尼语、阿拉伯语等50+语种

限时免费

开通百炼后自动发放

  • 最大Token长度:模型处理的单条(Query+Document)的最大Token数量,超过该最大长度的文本会进行截断。

  • 单行最大输入字符长度:SDK和API能接收的Query和单条Document最大长度。

公开数据评测结果

MTEB中文&英文检索数据集排序结果。BM25召回,NDCG@10指标评测

数据集

CMTEB(中文)

MTEB(英文)

gte-rerank

68.38

67.62

行业

通义法睿

适用于回答法律问题、推荐裁判类案、辅助案情分析、生成法律文书、检索法律知识、审查合同条款等。API参考 | 在线体验

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

(Token数)

(每千Token)

farui-plus

12k

12k

2k

0.02元