文档

模型列表

更新时间:

百炼提供了丰富多样的模型选择,它集成了通义系列大模型和第三方大模型,涵盖文本、图像、音视频等不同模态。

旗舰模型

官方旗舰大模型

文本生成

通义new 通义千问-Max

适合复杂任务,推理能力最强

通义new 通义千问-Plus

效果、速度、成本均衡,介于Max和Turbo之间

通义new 通义千问-Turbo

适合简单任务,速度快、成本低

通义new Qwen-Long

支持长达千万字文档,且成本极低

上下文长度(Token数)

8k或30k

约131k

8k

10000k

输入(每千Token)

0.04元

0.004元

0.002元

0.0005元

输出(每千Token)

0.12元

0.012元

0.006元

0.002元

关于详细参数以及更多大模型,请查看下方的表格。

模型总览

类别

模型

说明

文本生成

通义千问

支持通用文本生成模型(通义千问-Max通义千问-Plus通义千问-Turbo)、超长文档模型Qwen-Long以及视觉理解(图生文)模型通义千问VL

也支持开源版本的通用文本生成模型(Qwen2Qwen1.5Qwen)。

第三方模型

支持Llama百川ChatGLM零一万物等第三方模型。

图像生成

通义万相

可生成图像或编辑图像,适用于生成证件照、电商主图、模特图、各种风格人像图(动漫、国风、二次元等),也可用于抠图、生成背景、更改图片元素等。

第三方模型

支持Stable DiffusionFLUX

语音合成与识别

语音合成

支持CosyVoiceSambert,实现文本转语音,适用于智能语音客服、有声读物、车载导航、教育辅导等场景。

语音识别

支持ParaformerSenseVoice,实现语音转文本,适用于实时会议记录、实时直播字幕、电话客服等场景。

视频生成与编辑

数字人

支持悦动人像EMO,可基于人物肖像和语音,生成数字人视频。

舞蹈视频

支持舞动人像AnimateAnyone,可基于人物图像和预设动作,生成舞蹈视频。

视频编辑与生成

支持视频风格重绘,模型在保留原始人像和物体外观的同时,对输入的视频帧序列进行风格化重绘。

向量

文本向量

将文本转换成一组可以代表文字的数字,适用于搜索、聚类、推荐、分类任务。

多模态向量

将文本、图像、语音转换成一组数字,适用于音视频分类、图像分类、图文检索等。

行业

通义法睿

适用于法律咨询、案例分析和法规解读等。

文本生成-通义千问

以下是通义千问模型的商业版。相较于开源版,商业版具有最新的能力和改进。

说明

关于下面表格中的快照版本:

  • 各模型会不定期更新升级。如果希望使用固定版本,请使用快照版本。以qwen-plus-0624为例,表示qwen-plus的2024年06月24号的历史快照。

  • 快照版本通常维护至下个快照版本发布时间的后一个月。

通义千问-Max

通义千问系列效果最好的模型,适合复杂、多步骤的任务。API参考 | 在线体验

公共云

模型名称

模型版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(Token数)

(每千Token)

qwen-max

最新

8k

6k

2k

0.04元

Batch调用:0.02元

0.12元

Batch调用:0.06元

100万Token

有效期:百炼开通后30天内

qwen-max-0428

当前等同qwen-max

快照

0.04元

0.12元

qwen-max-0403

qwen-max-0107

qwen-max-longcontext

长上下文

30k

28k

金融云

模型名称

模型版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(Token数)

(每千Token)

qwen-max

最新

8k

6k

2k

0.076元

Batch调用:0.038元

0.228元

Batch调用:0.114元

100万Token

有效期:百炼开通后30天内

qwen-max-0428

当前等同qwen-max

快照

0.076元

0.228元

通义千问-Plus

能力均衡,推理效果和速度介于通义千问-Max和通义千问-Turbo之间,适合中等复杂任务。API参考 | 在线体验

公共云

模型名称

模型版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(Token数)

(每千Token)

qwen-plus

最新

131072

128k

8k

0.004元

Batch调用:0.002元

0.012元

Batch调用:0.006元

100万Token

有效期:百炼开通后30天内

qwen-plus-0806

当前等同qwen-plus

快照

131072

128k

0.004元

0.012元

qwen-plus-0723​

32k

30k

qwen-plus-0624

qwen-plus-0206

金融云

模型名称

模型版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(Token数)

(每千Token)

qwen-plus

最新

131072

128k

8k

0.0076元

Batch调用:0.0038元

0.0228元

Batch调用:0.0114元

100万Token

有效期:百炼开通后30天内

qwen-plus-0624

快照

32k

30k

0.0076元

0.0228元

通义千问-Turbo

通义千问系列速度最快、成本很低的模型,适合简单任务。API参考 | 在线体验

模型名称

模型版本

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(Token数)

(每千Token)

qwen-turbo

最新

8k

6k

1.5k

0.002元

Batch调用:0.001元

0.006元

Batch调用:0.003元

100万Token

有效期:百炼开通后30天内

qwen-turbo-0624

当前等同qwen-turbo

快照

0.002元

0.006元

qwen-turbo-0206

Qwen-Long

支持总结和分析长达千万字的文档,且成本极低。API参考 | 在线体验

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(Token数)

(每千Token)

qwen-long

10000k

10000k

6k

0.0005元

0.002元

100万Token

有效期:百炼开通后30天内

通义千问VL

通义千问VL是具有视觉(图像)理解能力的文本生成模型,不仅能进行OCR(图片文字识别),还能进一步总结和推理,例如从商品照片中提取属性,根据习题图进行解题等。其中qwen-vl-max-0809qwen-vl-plus-0809模型可以进行视频理解。API参考 | 在线体验

通义千问VL模型按输入和输出的总Token数进行计费。图像转换为Token的规则如下:分辨率为512*512像素的图像约等于334个Token,其他分辨率的图像按比例换算;最小单位为28x28像素,即每28x28像素对应一个Token,如果图像的长或宽不是28的整数倍,则向上取整至28的整数倍进行计算;一张图最少4个Token,最多1280个Token(qwen-vl-max-0809、qwen-vl-plus-0809模型可接受单张图片的最大输入为 16384 个 Token)。

模型名称

说明

上下文长度

最大输入

最大输出

输入输出单价

免费额度

(Token数)

(每千Token)

qwen-vl-max-0809

本次更新上下文支持32k,增强图像理解和视频推理能力,可以更好地识别图片中的多语言文字和手写体的文字。本模型为qwen-vl-max的2024年8月9日快照版本,将在9月9日更新至qwen-vl-max主版本,快照版本维护到下个快照版本发布时间(待定)后一个月。

本模型等同于模型Qwen2-VL-72B

32k

30k

2k

0.02元

100万Token

有效期:已开通百炼的用户,自8月23日0点起30天内有效。

新开通百炼的用户,在开通后30天内有效。

qwen-vl-plus-0809

本模型为qwen-vl-plus的2024年8月9日快照版本。

0.008元

100万Token

有效期:百炼开通后30天内

qwen-vl-max

相比qwen-vl-plus,再次提升视觉推理能力和指令遵循能力,提供更高的视觉感知和认知水平。在更多复杂任务中提供最佳性能。

8k

6k

0.02元

100万Token

有效期:百炼开通后30天内

qwen-vl-max-0201

本模型为qwen-vl-max的2024年2月1日快照版本,快照版本维护到下个快照版本发布时间(待定)后一个月。

qwen-vl-plus

大幅提升细节识别能力和文字识别能力,支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务中提供卓越性能。

0.008元

通义千问数学模型

通义千问数学模型是专门用于数学解题的语言模型。

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(Token数)

(每千Token)

qwen-math-plus

4,096

3,072

3,072

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

100万Token

有效期:百炼开通后30天内

qwen-math-plus-0816

通义千问Audio

通义千问Audio是音频理解模型,能够接受多种音频(包括说话人语音、自然音、音乐、歌声)和文本作为输入,并以文本作为输出。该模型不仅能对输入的音频进行转录,还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。API参考

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(Token数)

(每千Token)

qwen-audio-turbo

8,000

6,000

1,500

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

10万Token

有效期:百炼开通后180天内

文本生成-通义千问-开源版

  • 模型名称中,xxb表示参数规模,例如qwen2-72b-instruct表示参数规模为72B,即720亿。

  • 百炼支持调用通义千问的开源版,您无需本地部署模型。对于开源版,建议使用Qwen2或Qwen1.5模型。

Qwen2

阿里云的通义千问2-开源版。API参考 | 在线体验

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(Token数)

(每千Token)

qwen2-72b-instruct

131,072

128,000

6,144

0.005元

0.01

100万Token

有效期:百炼开通后30天内

qwen2-57b-a14b-instruct

32,768

30,720

0.0035

0.007

qwen2-7b-instruct

131,072

128,000

0.001

0.002

qwen2-1.5b-instruct

32,768

30,720

限时免费

qwen2-0.5b-instruct

Qwen1.5

阿里云的通义千问1.5-开源版。API参考 | 在线体验

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(Token数)

(每千Token)

qwen1.5-110b-chat

32k

30k

8k

0.007元

0.014元

100万Token

有效期:百炼开通后30天内

qwen1.5-72b-chat

2k

0.005元

0.01元

qwen1.5-32b-chat

0.0035元

0.007元

qwen1.5-14b-chat

8k

6k

0.002元

0.004元

qwen1.5-7b-chat

0.001元

0.002元

qwen1.5-1.8b-chat

32k

30k

限时免费

qwen1.5-0.5b-chat

Qwen

阿里云的通义千问-开源版。API参考 | 在线体验

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(Token数)

(每千Token)

qwen-72b-chat

32k

30k

2k

0.02元

0.02元

100万Token

有效期:百炼开通后30天内

qwen-14b-chat

8k

6k

0.008元

0.008元

qwen-7b-chat

1.5k

0.006元

0.006元

qwen-1.8b-chat

2k

限时免费

qwen-1.8b-longcontext-chat

32k

30k

限时免费(需申请)

Qwen-VL

阿里云的通义千问VL开源版。API参考

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(Token数)

(每千Token)

qwen-vl-v1

8,000

6,000

1,500

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

10万Token

有效期:百炼开通后180天内

qwen-vl-chat-v1

Qwen2-math

基于Qwen2构建的专门用于数学解题的语言模型。API参考

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(Token数)

(每千Token)

qwen2-math-72b-instruct

4,096

3,072

3,072

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

100万Token

有效期:百炼开通后30天内

qwen2-math-7b-instruct

qwen2-math-1.5b-instruct

Qwen-Audio

阿里云的通义千问Audio开源版。API参考

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

免费额度

(Token数)

(每千Token)

qwen2-audio-instruct

8,000

6,000

1,500

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

10万Token

有效期:百炼开通后180天内

qwen-audio-chat

文本生成-第三方模型

Llama

Meta推出的大语言模型。API参考 | 在线体验

模型名称

上下文长度(Token数)

输入输出成本

免费额度

llama3.1-405b-instruct

128k

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

100万Token(需申请)

有效期:百炼开通后30天内

llama3.1-70b-instruct

llama3.1-8b-instruct

llama3-70b-instruct

8k

100万Token(需申请)

有效期:百炼开通后180天内

llama3-8b-instruct

llama2-13b-chat-v2

4k

100万Token(需申请)

有效期:申请通过后180天内

llama2-7b-chat-v2

百川

百川智能推出的大语言模型。API参考 | 在线体验

模型名称

上下文长度

输入成本

输出成本

免费额度

(Token数)

(每千Token)

baichuan2-turbo

32k

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

100万Token(需申请)

有效期:申请通过后180天内

百川-开源版

来自百川智能,该系列模型在平台中支持微调训练和独占实例部署。API参考 | 在线体验

模型名称

上下文长度

输入成本

输出成本

免费额度

(Token数)

(每千Token)

baichuan2-13b-chat-v1

4096

0.008元

0.008元

100万Token(需申请)

有效期:百炼开通后180天内

baichuan2-7b-chat-v1

0.006元

0.006元

baichuan-7b-v1

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

100万Token(需申请)

有效期:百炼开通后180天内

ChatGLM

智谱AI推出的大语言模型。API参考 | 在线体验

模型名称

上下文长度

输入成本

输出成本

免费额度

(Token数)

(每千Token)

chatglm3-6b

7500

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

100万Token(需申请)

有效期:百炼开通后180天内

chatglm-6b-v2

6500

0.006元

0.006元

100万Token

有效期:百炼开通后180天内

零一万物

零一万物推出的大语言模型。API参考 | 在线体验

模型名称

上下文长度(Token数)

输入输出成本

免费额度

yi-large

32k

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

100万Token(需申请)

有效期:申请通过后180天内

yi-medium

32k

yi-large-rag

有实时联网能力

16k

yi-large-turbo

16k

月之暗面

月之暗面推出的大语言模型。API参考 | 在线体验

模型名称

上下文长度(Token数)

输入输出成本

免费额度

moonshot-v1-8k

8k

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

100万Token(需申请)

有效期:申请通过后180天内

moonshot-v1-32k

32k

moonshot-v1-128k

128k

MiniMax

MiniMax推出的大语言模型。API参考 | 在线体验

模型名称

说明

上下文长度(Token数)

输入输出成本

免费额度

abab6.5g-chat

适合英文场景

8k

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

100万Token(需申请)

有效期:申请通过后180天内

abab6.5t-chat

适合中文场景

8k

abab6.5s-chat

适合超长文本场景

245k

姜子牙

IDEA研究院推出的大语言模型。API参考 | 在线体验

模型名称

输入输出成本

ziya-llama-13b-v1

限时免费(需申请)

BELLE

BELLE推出的大语言模型。API参考 | 在线体验

模型名称

输入输出成本

belle-llama-13b-2m-v1

限时免费(需申请)

元语

元语智能推出的大语言模型。API参考 | 在线体验

模型名称

输入输出成本

chatyuan-large-v2

限时免费(需申请)

BiLLa

BiLLa 是开源的推理能力增强的中英双语LLaMA模型,较大提升LLaMA的中文理解能力, 并尽可能减少对原始LLaMA英文能力的损伤。API参考 | 在线体验

模型名称

输入输出成本

billa-7b-sft-v1

限时免费(需申请)

图像生成-通义万相与图像编辑

通用图像生成

可以基于输入的文本生成图片。此外,还支持输入参考图片,并参考图片内容或者图片风格进行图片生成。API参考 | 在线体验

模型名称

示例输入

示例输出

单价

免费额度

wanx-v1

参考图

提示词:一只小狗在笑

小狗在笑

0.16元/张

500张

有效期:百炼开通后180天内

涂鸦作画

基于输入的手绘图加文字描述,即可生成精美的涂鸦绘画作品。API参考

模型名称

示例输入

示例输出

单价

免费额度

wanx-sketch-to-image-lite

image

提示词:一棵参天大树

image

0.06元/张

500张

有效期:百炼开通后180天内

图像布局重绘

根据用户输入的原始图片和局部涂抹图、prompt提示词文字内容,生成符合语义描述的多样化风格的局部重绘图像。API参考

模型名称

示例输入

示例输出

单价

免费额度

wanx-x-painting

image

布局涂抹图:

image

提示词:一只狗戴着红色眼镜

image

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

500张

有效期:百炼开通后180天内

人像风格重绘

人像风格重绘可以将输入的人物图像进行多种风格化的重绘生成,使新生成的图像在兼顾原始人物相貌的同时,带来不同风格的绘画效果。API参考

模型名称

示例输入

示例输出

单价

免费额度

wanx-style-repaint-v1

image

风格:清雅国风

image

0.12元/张

500张

有效期:百炼开通后180天内

图像背景生成

图像背景生成可以基于输入的前景图像素材拓展生成背景信息,实现自然的光影融合效果,与细腻的写实画面生成。支持文本描述、图像引导等多种方式,同时支持对生成的图像智能添加文字内容。API参考

模型名称

示例输入

示例输出

单价

免费额度

wanx-background-generation-v2

image

提示词:在桌面上,旁边有插着花朵的花瓶,背后是纯色高级的背景墙。

image

0.08元/张

500张

有效期:百炼开通后180天内

图像画面扩展

图像画面大模型,对输入图像进行画面自由扩展,支持旋转画面,支持按照扩展系数和扩展像素数两种方式进行扩图。用户可以通过指定宽度、高度画面扩展比例或者左、右、上、下的扩展的像素值来控制画面扩展,可用于创意娱乐、辅助作图、画面设计、影视后期制作等场景。API参考

模型名称

示例输入

示例输出

单价

免费额度

image-out-painting

image

image

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

500张

有效期:百炼开通后180天内

人物实例分割

输入人物图像,模型识别出图像中的不同人物对象并画出每个对象边界的像素级掩码。API参考

模型名称

示例输入

示例输出

单价

免费额度

image-instance-segmentation

image

image

可视化输出人像分割图

image

限时免费

图像擦除补全

输入图像并指定待擦除区域掩码图像以及保留区域掩码图像,模型在保留原图背景的同时擦除指定图像区域。API参考

针对人物图像的擦除、补全,推荐通过人物实例分割得到图像中不同人物对象的图像掩码,选择完整的人物图像掩码擦除一个或多个人物。

模型名称

示例输入

示例输出

单价

免费额度

image-erase-completion

图片擦除2-原图.png

原图

图片擦除2-擦除.png

待擦除区域

图片擦除2-保留.png

保留区域

image

限时免费

动漫人物生成

Cosplay动漫人物生成通过输入人像图片和卡通形象图片,可快速生成人物卡通写真。API参考

模型名称

示例输入

示例输出

单价

免费额度

wanx-style-cosplay-v1

image

image

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

300张

有效期:百炼开通后180天内

虚拟模特

可以对上传的真人实拍商品展示图进行智能生成,将其中的模特和背景替换为心仪的内容,在保持人物姿态不变的情况下,使用虚拟模特对商品进行更加精美、多样的展示。支持各种与模特产生互动的商品,如手持小商品、服装、鞋靴、配饰等。

V2相比V1,生成图片分辨率为短边1024或2048,支持改变分辨率,文本引导效果更准确。API参考

模型名称

版本

V2示例输入

V2示例输出

单价

免费额度

wanx-virtualmodel

V1

image

image

image

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

500张

有效期:百炼开通后180天内

virtualmodel-v2

V2

限时免费

鞋靴模特

鞋靴模特支持输入多视角鞋靴系列图片,同时对输入模特模板图的鞋子区域进行鞋靴AI试穿,实现模特鞋靴布局重绘生成,最终生成图片的效果, 布局自然、细节丰富、画面细腻、试穿结果逼真。可用于模特商品图设计、新鞋AI试穿、模特穿戴布局重绘等场景。API参考

模型名称

示例输入

示例输出

单价

免费额度

shoemodel-v1

image

image

image

公测中

创意海报生成

根据您的要求自动生成海报的背景和文字排版,支持多种海报风格。无需设计基础,轻松制作出彩作品,让创意触手可及。API参考

模型名称

示例输入

示例输出

单价

免费额度

wanx-poster-generation-v1

"title":"元宵节",

"sub_title":"正月十五",

"body_text":"团圆时节,汤圆香甜,祝你幸福美满!",

"prompt_text_zh":"灯笼,小猫,梅花",

"wh_ratios":"竖版",

"lora_name":"童话油画",

image

公测中

500张

有效期:百炼开通后180天内

人物写真生成-FaceChain

  • 人物图像检测:对用户上传的人物图像进行检测,判断其中所包含的人脸是否符合Facechain微调所需的标准,检测维度包括人脸数量、大小、角度、光照、清晰度等多维度,支持图像组输入,并返回每张图像对应的检测结果。API参考

  • 人物形象训练:对上传的图像进行模型训练,从而获得该图像中对应人物的resource,基于该resource可以实现人物的写真生成。API参考

  • 人物写真生成:基于人物形象训练已经得到的形象,可以继续通过人物生成写真模型完成该形象的写真生成,支持多种预设风格,包括证件照、商务写真等。API参考

模型名称

说明

示例输入

示例输出

单价

免费额度

facechain-facedetect

人物图像检测

image

风格:商务写真

image

限时免费

限时免费

facechain-finetune

人物形象训练

2.5元/次

50次

有效期:申请通过后180天内

facechain-generation

人物写真生成

0.18元/张

500张

有效期:申请通过后180天内

创意文字生成-WordArt锦书

  • 文字纹理生成:可以对输入的文字内容或文字图片进行创意设计,根据提示词内容对文字添加材质和纹理,实现立体凸显或场景融合的效果,生成效果精美、风格多样的艺术字,结合背景可以直接作为文字海报使用。API参考

  • 文字变形:可以对输入的文字边缘轮廓进行创意变形,根据提示词内容进行边缘变化,实现一种字体的更多种创意用法,返回带有文字内容的黑底白色mask图。API参考

  • 百家姓生成:可以输入姓氏文字进行创意设计,支持根据提示词和风格引导图进行自定义设计,同时提供多种精美的预设风格模板,生成图片可以应用于个性社交场景,如作为个人头像、屏幕壁纸、字体表情包等。API参考

模型名称

说明

示例输入

示例输出

单价

免费额度

wordart-texture

文字纹理生成

image

提示词:精美玉石

风格类型:立体材质

image

0.08元/张

500张

有效期:百炼开通后365天内

wordart-semantic

文字变形

文字:桂林山水

提示词:山峦叠嶂、漓江蜿蜒、岩石奇秀

image

0.24元/张

wordart-surnames

百家姓生成

百家姓:沈

风格:奇幻楼阁

image

暂无

500张

有效期:百炼开通后180天内

AI试衣

  • AI试衣一款虚拟试衣图片生成模型,基于人像照片及服装图生成穿着后的试衣图片。API参考

  • AI试衣-图片精修是对AI试衣生成的效果图进行二次生成,输出还原度更高的精修试衣效果图。API参考

模型名称

说明

示例输入

示例输出

免费额度

aitryon

AI试衣

image

image

300张

有效期:百炼开通后180天内

aitryon-refiner

AI试衣-图片精修

100张

有效期:百炼开通后180天内

AI试衣价格表

模型名称

计量单价

折扣

阶梯层级

aitryon

0.60元/张

生成数量 ≤ 100张

0.55元/张

9.2折

100张 < 生成数量 ≤ 500张

0.50元/张

8.4折

500张 < 生成数量 ≤ 1000张

0.45元/张

7.5折

1000张 < 生成数量 ≤ 5000张

0.40元/张

6.7折

5000张 < 生成数量 ≤ 1万张

0.35元/张

5.8折

1万张 < 生成数量 ≤ 10万张

0.30元/张

5折

生成数量 > 10万张

aitryon-refiner

0.30元/张

生成数量 ≤ 25张

0.275元/张

9.2折

25张 < 生成数量 ≤ 125张

0.25元/张

8.4折

125张 < 生成数量 ≤ 250张

0.225元/张

7.5折

250张 < 生成数量 ≤ 1250张

0.2元/张

6.7折

1250张 < 生成数量 ≤ 2500张

0.175元/张

5.8折

2500张 < 生成数量 ≤ 2.5万张

0.15元/张

5折

生成数量 > 2.5万张

图像生成-第三方模型

Stable Diffusion

API参考

模型名称

说明

单价

免费额度

stable-diffusion-xl

相比v1.5做了重大改进,被认为是当前开源文生图模型的SOTA水准,具体改进包括:unet backbone是之前的3倍;增加了refinement模块用于改善生成图片的质量;更高效的训练技巧等。

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

500张

有效期:申请通过后180天内

stable-diffusion-v1.5

通过clip模型将文本的embedding和图片embedding映射到相同空间,从而通过输入文本并结合unet的稳定扩散预测噪声的能力,生成图片。是一款基础的文生图模型,得到了业界广泛使用。

FLUX

Black Forest Labs的开源文生图模型,尤其擅长生成包含文字、多主体、手部细节的图片。

API详情 | 在线体验

模型名称

说明

单价

免费额度

flux-merged

结合了flux-dev的深度和flux-schnell的快速执行。

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

1000张

有效期:百炼开通后180天内

flux-dev

开发者版,面向非商业应用,具有与专业版相近的图像质量和指令遵循能力,同时运行效率更高。

flux-schnell

快速版,轻量级模型。

计费方案即将推出。

语音合成(文本转语音)

CosyVoice

CosyVoice 是通义实验室依托大规模预训练语言模型,深度融合文本理解和语音生成的新一代生成式语音合成大模型,支持文本至语音的实时流式合成。API参考 | 在线体验

模型名称

单价

免费额度

cosyvoice-v1

2元/万字符

根据待合成字符数计费(其中1个汉字算2个字符,英文、标点符号均按照个1个字符计费)。

每主账号每模型每月2000字符。

音色列表:

模型名称

voice参数

音色

音频试听

适用场景

语言

默认采样率(Hz)

默认音频格式

cosyvoice-v1

longxiaochun

龙小淳

语音助手、

导航播报、

聊天数字人

中文+英文

22050

mp3

cosyvoice-v1

longxiaoxia

龙小夏

语音助手、聊天数字人

中文

22050

mp3

cosyvoice-v1

longxiaocheng

龙小诚

语音助手、导航播报、聊天数字人

中文+英文

22050

mp3

cosyvoice-v1

longxiaobai

龙小白

聊天数字人、有声书、语音助手

中文

22050

mp3

cosyvoice-v1

longlaotie

龙老铁

新闻播报、有声书、语音助手、直播带货、导航播报

中文东北口音

22050

mp3

cosyvoice-v1

longshu

龙书

有声书、语音助手、导航播报、新闻播报、智能客服

中文

22050

mp3

cosyvoice-v1

longshuo

龙硕

语音助手、导航播报、新闻播报、客服催收

中文

22050

mp3

cosyvoice-v1

longjing

龙婧

语音助手、导航播报、新闻播报、客服催收

中文

22050

mp3

cosyvoice-v1

longmiao

龙妙

客服催收、导航播报、有声书、语音助手

中文

22050

mp3

cosyvoice-v1

longyue

龙悦

语音助手、诗词朗诵、有声书朗读、导航播报、新闻播报、客服催收

中文

22050

mp3

cosyvoice-v1

longyuan

龙媛

有声书、语音助手、聊天数字人

中文

22050

mp3

cosyvoice-v1

longfei

龙飞

会议播报、新闻播报、有声书

中文

22050

mp3

cosyvoice-v1

longjielidou

龙杰力豆

新闻播报、有声书、聊天助手

中文+英文

22050

mp3

cosyvoice-v1

longtong

龙彤

有声书、导航播报、聊天数字人

中文

22050

mp3

cosyvoice-v1

longxiang

龙祥

新闻播报、有声书、导航播报

中文

22050

mp3

cosyvoice-v1

loongstella

Stella

语音助手、直播带货、导航播报、客服催收、有声书

中文+英文

22050

mp3

cosyvoice-v1

loongbella

Bella

语音助手、客服催收、新闻播报、导航播报

中文

22050

mp3

Sambert

Sambert语音合成API基于达摩院改良的自回归韵律模型,支持文本至语音的实时流式合成。API参考

模型名称

单价

免费额度

见下表

1元/万字符

根据待合成字符数计费(其中1个汉字算2个字符,英文、标点符号均按照个1个字符计费)。SSML标签内容不计费。

每主账号每模型每月3万字符。

模型(音色)列表:

模型名称

音色

音频试听

时间戳支持

适用场景

特色

语言

默认采样率(Hz)

sambert-zhinan-v1

知楠

通用场景

广告男声

中文+英文

48k

sambert-zhiqi-v1

知琪

通用场景

温柔女声

中文+英文

48k

sambert-zhichu-v1

知厨

新闻播报

舌尖男声

中文+英文

48k

sambert-zhide-v1

知德

新闻播报

新闻男声

中文+英文

48k

sambert-zhijia-v1

知佳

新闻播报

标准女声

中文+英文

48k

sambert-zhiru-v1

知茹

新闻播报

新闻女声

中文+英文

48k

sambert-zhiqian-v1

知倩

配音解说、新闻播报

资讯女声

中文+英文

48k

sambert-zhixiang-v1

知祥

配音解说

磁性男声

中文+英文

48k

sambert-zhiwei-v1

知薇

阅读产品简介

萝莉女声

中文+英文

48k

sambert-zhihao-v1

知浩

通用场景

咨询男声

中文+英文

16k

sambert-zhijing-v1

知婧

通用场景

严厉女声

中文+英文

16k

sambert-zhiming-v1

知茗

通用场景

诙谐男声

中文+英文

16k

sambert-zhimo-v1

知墨

通用场景

情感男声

中文+英文

16k

sambert-zhina-v1

知娜

通用场景

浙普女声

中文+英文

16k

sambert-zhishu-v1

知树

通用场景

资讯男声

中文+英文

16k

sambert-zhistella-v1

知莎

通用场景

知性女声

中文+英文

16k

sambert-zhiting-v1

知婷

通用场景

电台女声

中文+英文

16k

sambert-zhixiao-v1

知笑

通用场景

资讯女声

中文+英文

16k

sambert-zhiya-v1

知雅

通用场景

严厉女声

中文+英文

16k

sambert-zhiye-v1

知晔

通用场景

青年男声

中文+英文

16k

sambert-zhiying-v1

知颖

通用场景

软萌童声

中文+英文

16k

sambert-zhiyuan-v1

知媛

通用场景

知心姐姐

中文+英文

16k

sambert-zhiyue-v1

知悦

客服

温柔女声

中文+英文

16k

sambert-zhigui-v1

知柜

阅读产品简介

直播女声

中文+英文

16k

sambert-zhishuo-v1

知硕

数字人

自然男声

中文+英文

16k

sambert-zhimiao-emo-v1

知妙(多情感)

阅读产品简介、数字人、直播

多种情感女声

中文+英文

16k

sambert-zhimao-v1

知猫

阅读产品简介、配音解说、数字人、直播

直播女声

中文+英文

16k

sambert-zhilun-v1

知伦

配音解说

悬疑解说

中文+英文

16k

sambert-zhifei-v1

知飞

配音解说

激昂解说

中文+英文

16k

sambert-zhida-v1

知达

新闻播报

标准男声

中文+英文

16k

sambert-camila-v1

Camila

通用场景

西班牙语女声

西班牙语

16k

sambert-perla-v1

Perla

通用场景

意大利语女声

意大利语

16k

sambert-indah-v1

Indah

通用场景

印尼语女声

印尼语

16k

sambert-clara-v1

Clara

通用场景

法语女声

法语

16k

sambert-hanna-v1

Hanna

通用场景

德语女声

德语

16k

sambert-beth-v1

Beth

通用场景

咨询女声

美式英文

16k

sambert-betty-v1

Betty

通用场景

客服女声

美式英文

16k

sambert-cally-v1

Cally

通用场景

自然女声

美式英文

16k

sambert-cindy-v1

Cindy

通用场景

对话女声

美式英文

16k

sambert-eva-v1

Eva

通用场景

陪伴女声

美式英文

16k

sambert-donna-v1

Donna

通用场景

教育女声

美式英文

16k

sambert-brian-v1

Brian

通用场景

客服男声

美式英文

16k

sambert-waan-v1

Waan

通用场景

泰语女声

泰语

16k

语音识别(语音转文本)

Paraformer

Paraformer语音识别服务只识别并转写音频中的语音内容,非语音内容不计费。实际转写时长通常短于原始音频时长。由于采用AI判断,可能存在少许误差。
默认情况下,仅转写并计费多轨音频文件的首轨。若指定转写多个音轨,则各音轨按语音时长单独计费。
关于实际计费时长,请查看返回结果中的content_duration字段。

录音文件识别

API参考 | 在线体验

模型名称

支持的语言

支持的采样率

适用的格式

单价

免费额度

paraformer-v2

中文普通话、中文方言(粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话、江西话、云南话、上海话)、英语、日语、韩语

任意

视频直播、电话客服等

0.00008元/秒

36,000秒(10小时)

每月1日0点自动发放

有效期1个月

paraformer-v1

中文普通话、英语

任意

音频或视频

paraformer-8k-v1

中文普通话

8kHz

电话语音

paraformer-mtl-v1

中文普通话、中文方言(粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话)、英语、日语、韩语、西班牙语、印尼语、法语、德语、意大利语、马来语

16kHz及以上

音频或视频

实时语音识别

API参考 | 在线体验

模型名称

支持的语言

支持的采样率

适合场景

单价

免费额度

paraformer-realtime-v2

中文(含粤语等各种方言)、英文、日语、韩语

支持多个语种自由切换

16kHz

视频直播、会议等

0.00024元/秒

36,000秒(10小时)

每月1日0点自动发放

有效期1个月

paraformer-realtime-v1

中文

16kHz

paraformer-realtime-8k-v1

8Hz

电话客服等

SenseVoice

录音文件识别

专注于高精度多语言语音识别,还能识别情绪(高兴、悲伤、生气等)和特定事件(背景音乐、歌唱、掌声和笑声等)。API参考

只识别并转写音频中的语音内容,非语音内容不计费。实际转写时长通常短于原始音频时长。由于采用AI判断,可能存在少许误差。
默认情况下,仅转写并计费多轨音频文件的首轨。若指定转写多个音轨,则各音轨按语音时长单独计费。
关于实际计费时长,请查看返回结果中的content_duration_in_milliseconds字段。

模型名称

支持的语言

适用的格式

单价

免费额度

sensevoice-v1

超过50种语言(中、英、日、韩、粤等)

附录:支持语言列表

音频或视频

0.0007 元/秒

36,000秒(10小时)

每月1日0点自动发放

有效期1个月

视频合成

数字人-悦动人像EMO

基于人物肖像图片和人声音频文件,生成人物肖像动态视频。使用时需依次调用下述两个模型。EMO图像检测API详情 | EMO 视频生成 API详情

模型名称

说明

计费

免费额度

emo-detect

检测输入图像是否符合要求

当前仅支持部署后调用,仅收取部署费用。

部署单价:20元/算力单元/小时

emo

生成人物肖像动态视频

舞蹈视频-舞动人像AnimateAnyone

基于人物图片和预设的动作序列,生成人物动作视频。使用时需依次调用下述两个模型。AnimateAnyone 图像检测 API详情 | AnimateAnyone 视频生成 API详情

模型名称

说明

计费

免费额度

animate-anyone-detect

检测输入图像是否符合要求

当前仅支持部署后调用,仅收取部署费用。

部署单价:20元/算力单元/小时

animate-anyone

生成人物全身动作视频

视频编辑与生成

支持根据用户输入的文字内容,生成符合语义描述的不同风格的视频,或者根据用户输入的视频,进行视频风格重绘。

模型名称

说明

计费

免费额度

video-style-transform

视觉风格重绘

显示免费

文本向量

文本向量模型用于将文本转换成一组可以代表文字的数字,适用于搜索、聚类、推荐、分类任务。模型根据输出Token数计费。同步接口API详情 | 批处理接口API详情

模型名称

向量维度

最大行数

单行最大处理Token数

支持语种

单价

(每千Token)

免费额度

text-embedding-v3

1024

768

512

6

8192

中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语等50+语种

0.0007元

50万Token

有效期:百炼开通后180天内

text-embedding-v2

1536

25

2048

中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语

text-embedding-v1

中文、英语、西班牙语、法语、葡萄牙语、印尼语

text-embedding-async-v2

100000

中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语

2000万Token

有效期:百炼开通后180天内

text-embedding-async-v1

中文、英语、西班牙语、法语、葡萄牙语、印尼语

v1、v2、v3模型的效果数据

模型

MTEB

MTEB(Retrieval task)

CMTEB

CMTEB (Retrieval task)

text-embedding-v1

58.30

45.47

59.84

56.59

text-embedding-v2

60.13

49.49

62.17

62.78

text-embedding-v3

63.39

55.41

68.92

73.23

v3模型三种维度的效果数据

模型

模型维度

MTEB

MTEB(Retrieval task)

CMTEB

CMTEB (Retrieval task)

text-embedding-v3

1024

63.39

55.41

68.92

73.23

text-embedding-v3

768

62.43

54.74

67.90

72.29

text-embedding-v3

512

62.11

54.30

66.81

71.88

v3模型相比v2的更新内容

  • 语种扩充:text-embedding-v3模型对比text-embedding-v2模型扩展了意大利语、波兰语、越南语、泰语等语种,支持语种数量增加到50+。

  • 输入长度扩展:支持编码的输入长度从2048扩展至8192, 对text-embedding-v3, 8192指文本输入的最大token长度

  • 可变输出连续向量维度: 相比text-embedding-v2模型的固定1536向量维度, text-embedding-v3支持用户自定义连续向量的维度, 目前可以选择512,768和1024维度;同时为了进一步节省下游任务的使用成本,text-embedding-v3模型在不衰减效果的前提下将最大的向量维度降低至1024维。

  • 不再区分Query/Document类型:text-embedding-v3模型在不降低模型效果的前提下不再区分输入文本的类型,text_type参数无需指定输入的文本是Query还是Document类型。

  • Sparse向量支持: text-embedding-v3模型同时支持连续向量表示(dense vector)和离散向量表示模型(sparse vector), 用户可以在接口参数中指定输出连续向量、离散向量或者同时输出。

  • 效果提升:预训练模型底座和SFT策略优化提升embedding模型整体效果,公开数据评测结果。

v2模型相比v1的更新内容

  • 语种扩充:“text-embedding-v2”模型对比“text-embedding-v1”模型扩展了日语、韩语、德语、俄罗斯语文本向量化的能力。

  • 效果提升:预训练模型底座和SFT策略优化提升embedding模型整体效果,公开数据评测结果。

  • 归一化处理:text-embedding-v2对输出向量结果默认归一化处理。

多模态向量

ONE-PEACE

多模态向量模型将文本、图像、语音转换成一组数字,适用于音视频分类、图像分类、图文检索等。API参考

计费规则:按输入音频、图像和文本的加权条目数计费。加权条目数 = 音频数目 * 音频加权权重(2) + 图像张数 * 图像加权权重(1) + 文字条数 * 文字加权权重(1)

模型名称

数据类型

向量维度

单价

免费额度

multimodal-embedding-one-peace-v1

float(32)

1536

目前仅供免费体验。

免费额度用完后不可调用,敬请关注后续动态。

10,000加权条目数

有效期:百炼开通后180天内

文本分类、抽取、排序

OpenNLU

针对给定的文本(中文或英文)进行信息抽取或文本分类。模型根据输出Token数计费。API参考

模型名称

最大输入Token数

单价(每千Token)

免费额度

opennlu-v1

1024

0.00465元

100万Token

有效期:百炼开通后180天内

文本排序模型

通常用于语义检索,即给定查询 (Query) 和一系列候选文本 (documents),会根据与查询的语义相关性从高到低对候选文本进行排序。API参考

模型名称

最大Token数

单次请求最大doc数

单行最大输入字符长度

支持语言

单价

免费额度

gte-rerank

4000

500

30000

中、英、日、韩、泰语、西、法、葡、德、印尼语、阿拉伯语等50+语种

限时免费

开通百炼后自动发放

  • 最大Token长度:模型处理的单条(Query+Document)的最大Token数量,超过该最大长度的文本会进行截断。

  • 单行最大输入字符长度:SDK和API能接收的Query和单条Document最大长度。

公开数据评测结果

MTEB中文&英文检索数据集排序结果。BM25召回,NDCG@10指标评测

数据集

CMTEB(中文)

MTEB(英文)

gte-rerank

68.38

67.62

行业

通义法睿

适用于回答法律问题、推荐裁判类案、辅助案情分析、生成法律文书、检索法律知识、审查合同条款等。API参考 | 在线体验

模型名称

上下文长度

最大输入

最大输出

输入成本

输出成本

(Token数)

(每千Token)

farui-plus

12k

12k

2k

0.02元