百炼提供了丰富多样的模型选择,它集成了通义系列大模型和第三方大模型,涵盖文本、图像、音视频等不同模态。
旗舰模型
旗舰模型 | 通义千问-Max 适合复杂任务,推理能力最强 | 通义千问-Plus 效果、速度、成本均衡 | 通义千问-Turbo 适合简单任务,速度快、成本低 | Qwen-Long 支持长达千万字文档,成本低 |
API调用模型名 (稳定版本) | qwen-max | qwen-plus | qwen-turbo | qwen-long |
最大上下文长度 (Token数) | 32,768 | 131,072 | 1,000,000 | 10,000,000 |
最低输入价格 (每千Token) | 0.02元 | 0.0008元 | 0.0003元 | 0.0005元 |
最低输出价格 (每千Token) | 0.06元 | 0.002元 | 0.0006元 | 0.002元 |
关于详细参数以及更多大模型,请查看下方的表格。
模型总览
类别 | 模型 | 说明 |
文本生成 | ||
图像生成 | 可生成图像或编辑图像,适用于生成证件照、电商主图、模特图、各种风格人像图(动漫、国风、二次元等),也可用于抠图、生成背景、更改图片元素等。 | |
语音合成与识别 | ||
支持Paraformer和SenseVoice,实现语音转文本,适用于实时会议记录、实时直播字幕、电话客服等场景。 | ||
视频生成与编辑 | 支持悦动人像EMO和灵动人像LivePortrait,可基于人物肖像和语音,生成数字人视频。 | |
支持舞动人像AnimateAnyone生成舞蹈视频,支持声动人像VideoRetalk生成对口型视频,支持声动人像VideoRetalk生成3D角色替换人物视频。 | ||
支持视频风格重绘,将输入视频转换为不同风格,如日式漫画、美式漫画等。 | ||
向量 | 将文本转换成一组可以代表文字的数字,适用于搜索、聚类、推荐、分类任务。 | |
将文本、图像、语音转换成一组数字,适用于音视频分类、图像分类、图文检索等。 | ||
行业 | 适用于法律咨询、案例分析和法规解读等。 | |
意图理解模型能够在毫秒级时间内解析用户意图,并选择合适工具来解决用户问题。 |
文本生成-通义千问
以下是通义千问模型的商业版。相较于开源版,商业版具有最新的能力和改进。
各模型会不定期更新升级。如需使用固定版本,请使用快照版本。快照版本通常维护至下个快照版本发布时间的后一个月。
通义千问-Max
通义千问系列效果最好的模型,适合复杂、多步骤的任务。使用方法 | API参考 | 在线体验
公共云
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||||
qwen-max 当前等同qwen-max-2024-09-19 | 稳定版 | 32,768 | 30,720 | 8,192 | 0.02元 Batch调用:0.01元 | 0.06元 Batch调用:0.03元 | 100万Token 有效期:百炼开通后180天内 |
qwen-max-latest 始终等同最新快照版 | 最新版 | 0.02元 | 0.06元 | ||||
qwen-max-2024-09-19 又称qwen-max-0919 | 快照版 | ||||||
qwen-max-2024-04-28 又称qwen-max-0428 | 8,000 | 6,000 | 2,000 | 0.04元 | 0.12元 | ||
qwen-max-2024-04-03 又称qwen-max-0403 | |||||||
qwen-max-2024-01-07 又称qwen-max-0107 |
最新的qwen-max-0919模型:显著提升了中英文能力、推理能力、复杂指令理解能力及数学和代码能力,支持8千字的长文本输出,强化了对Table、JSON等结构化数据的理解和生成。
金融云
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||||
qwen-max | 稳定版 | 8,000 | 6,000 | 2,000 | 0.038元 Batch调用:0.019元 | 0.114元 Batch调用:0.057元 | 100万Token 有效期:百炼开通后180天内 |
通义千问-Plus
能力均衡,推理效果、成本和速度介于通义千问-Max和通义千问-Turbo之间,适合中等复杂任务。使用方法 | API参考 | 在线体验
公共云
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||||
qwen-plus 当前等同qwen-plus-2024-09-19 | 稳定版 | 131,072 | 129,024 | 8,192 | 0.0008元 Batch调用:0.0004元 | 0.002元 Batch调用:0.001元 | 100万Token 有效期:百炼开通后180天内 |
qwen-plus-latest 始终等同最新快照版 | 最新版 | 0.0008元 | 0.002元 | ||||
qwen-plus-2024-11-27 又称qwen-plus-1127 | 快照版 | ||||||
qwen-plus-2024-11-25 又称qwen-plus-1125 | |||||||
qwen-plus-2024-09-19 又称qwen-plus-0919 | |||||||
qwen-plus-2024-08-06 又称qwen-plus-0806 | 128,000 | 0.004元 | 0.012元 | ||||
qwen-plus-2024-07-23 又称qwen-plus-0723 | 32,000 | 30,000 | 8,000 | ||||
qwen-plus-2024-06-24 又称qwen-plus-0624 | |||||||
qwen-plus-2024-02-06 又称qwen-plus-0206 |
最新的qwen-plus-0919模型:显著提升了中英文能力、推理能力、复杂指令理解能力及数学和代码能力,支持8千字的长文本输出。
金融云
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||||
qwen-plus | 稳定版 | 131,072 | 128,000 | 8,192 | 0.00152元 Batch调用:0.00076元 | 0.0038元 Batch调用:0.0019元 | 100万Token 有效期:百炼开通后180天内 |
通义千问-Turbo
通义千问系列速度最快、成本很低的模型,适合简单任务。使用方法 | API参考 | 在线体验
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||||
qwen-turbo 当前等同qwen-turbo-2024-09-19 | 稳定版 | 131,072 | 129,024 | 8,192 | 0.0003元 Batch调用:0.00015元 | 0.0006元 Batch调用:0.0003元 | 100万Token 有效期:百炼开通后180天内 |
qwen-turbo-latest 始终等同最新快照版 | 最新版 | 1,000,000 | 1,000,000 | 0.0003元 | 0.0006元 | ||
qwen-turbo-2024-11-01 又称qwen-turbo-1101 | 快照版 | 1000万Token 有效期:百炼开通后180天内 | |||||
qwen-turbo-2024-09-19 又称qwen-turbo-0919 | 131,072 | 129,024 | 100万Token 有效期:百炼开通后180天内 | ||||
qwen-turbo-2024-06-24 又称qwen-turbo-0624 | 8,000 | 6,000 | 2,000 | 0.002元 | 0.006元 | ||
qwen-turbo-2024-02-06 又称qwen-turbo-0206 |
最新的qwen-turbo-2024-11-01模型:在qwen-turbo-2024-09-19模型的能力之上扩展了上下文长度,模型支持的最大上下文长度从128k扩展到1M。
Qwen-Long
支持总结和分析长达千万字的文档,且成本极低。使用方法 | API参考 | 在线体验
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||
qwen-long | 10,000,000 | 10,000,000 | 6,000 | 0.0005元 | 0.002元 | 100万Token 有效期:百炼开通后180天内 |
通义千问VL
通义千问VL是具有视觉(图像)理解能力的文本生成模型,不仅能进行OCR(图片文字识别),还能进一步总结和推理,例如从商品照片中提取属性,根据习题图进行解题等。使用方法 | API参考 | 在线体验
通义千问VL模型按输入和输出的总Token数进行计费。
图像转换为Token的规则:512x512像素的图像约等于334个Token,其他分辨率图像按比例换算;最小单位是28x28像素,即每28x28像素对应一个Token,如果图像的长或宽不是28的整数倍,则向上取整至28的整数倍;一张图最少4个Token。
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入输出单价 | 免费额度 |
(Token数) | (每千Token) | |||||
qwen-vl-max 相比qwen-vl-plus再次提升视觉推理和指令遵循能力,在更多复杂任务中提供最佳性能。 当前等同qwen-vl-max-2024-08-09 | 稳定版 | 32,000 | 30,000 单图最大16384 | 2,000 | 0.02元 | 100万Token 有效期:百炼开通后180天内 |
qwen-vl-max-latest 始终等同最新快照版 | 最新版 | |||||
qwen-vl-max-2024-11-19 又称qwen-vl-max-1119 | 快照版 | |||||
qwen-vl-max-2024-10-30 又称qwen-vl-max-1030 | ||||||
qwen-vl-max-2024-08-09 又称qwen-vl-max-0809 此版本扩展上下文至32k,增强图像理解能力,能更好地识别图片中的多语种和手写体。 | ||||||
qwen-vl-max-2024-02-01 又称qwen-vl-max-0201 | 8,000 | 6,000 单图最大1280 | ||||
qwen-vl-plus 大幅提升细节识别和文字识别能力,支持超百万像素分辨率和任意宽高比的图像。在广泛的视觉任务中提供卓越性能。 | 稳定版 | 8,000 | 6,000 单图最大1280 | 0.008元 | ||
qwen-vl-plus-latest 始终等同最新快照版 | 最新版 | 32,000 | 30,000 单图最大16384 | |||
qwen-vl-plus-2024-08-09 又称qwen-vl-plus-0809 | 快照版 | |||||
qwen-vl-plus-2023-12-01 | 8,000 | 6,000 | 2,000 | 0.008元 |
通义千问OCR
通义千问OCR模型是专用于文字提取的模型。相较于通义千问VL模型,它更专注于文档、表格、试题、手写体文字等类型图像的文字提取能力。它能够识别多种语言,包括英语、法语、日语、韩语、德语、俄语和意大利语等。使用方法 | API参考|在线体验
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入输出单价 | 免费额度 |
(Token数) | (每千Token) | |||||
qwen-vl-ocr 当前等同qwen-vl-ocr-2024-10-28 | 稳定版 | 34096 | 30000 单图最大30000 | 4096 | 0.005元 | 100万Token 有效期:百炼开通后180天内 |
qwen-vl-ocr-latest 始终等同最新快照版 | 最新版 | |||||
qwen-vl-ocr-2024-10-28 又称qwen-vl-ocr-1028 | 快照版 |
通义千问Audio
通义千问Audio是音频理解模型,支持输入多种音频(人类语音、自然音、音乐、歌声)和文本,并输出文本。该模型不仅能对输入的音频进行转录,还具备更深层次的语义理解、情感分析、音频事件检测、语音聊天等能力。使用方法 | API参考
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||||
qwen-audio-turbo 当前等同qwen-audio-turbo-2024-08-07 | 稳定版 | 8,000 | 6,000 | 1,500 | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。 | 10万Token 有效期:百炼开通后180天内 | |
qwen-audio-turbo-latest 始终等同最新快照版 | 最新版 | 8,192 | 6,144 | 2,048 | |||
qwen-audio-turbo-2024-12-04 又称qwen-audio-turbo-1204 较上个快照版本大幅提升语音识别准确率,且新增了语音聊天能力。 | 快照版 | ||||||
qwen-audio-turbo-2024-08-07 又称qwen-audio-turbo-0807 | 8,000 | 6,000 | 1,500 |
通义千问数学模型
通义千问数学模型是专门用于数学解题的语言模型。使用方法 | API参考 | 在线体验
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||||
qwen-math-plus 当前等同qwen-math-plus-2024-09-19 | 稳定版 | 4,096 | 3,072 | 3,072 | 0.004元 | 0.012元 | 100万Token 有效期:百炼开通后180天内 |
qwen-math-plus-latest 始终等同最新快照版 | 最新版 | ||||||
qwen-math-plus-2024-09-19 又称qwen-math-plus-0919 | 快照版 | ||||||
qwen-math-plus-2024-08-16 又称qwen-math-plus-0816 | |||||||
qwen-math-turbo 当前等同qwen-math-turbo-2024-09-19 | 稳定版 | 0.002元 | 0.006元 | ||||
qwen-math-turbo-latest 始终等同最新快照版 | 最新版 | ||||||
qwen-math-turbo-2024-09-19 又称qwen-math-turbo-0919 | 快照版 |
通义千问Coder
模型名称 | 版本 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||||
qwen-coder-plus 当前等同qwen-coder-plus-2024-11-06 | 稳定版 | 131,072 | 129,024 | 8192 | 0.0035元 | 0.007元 | 100万Token 有效期:百炼开通后180天内 |
qwen-coder-plus-latest 等同qwen-coder-plus最新的快照版本 | 最新版 | ||||||
qwen-coder-plus-2024-11-06 又称qwen-coder-plus-1106 | 快照版 | ||||||
qwen-coder-turbo 当前等同qwen-coder-turbo-2024-09-19 | 稳定版 | 131,072 | 129,024 | 8,192 | 0.002元 | 0.006元 | 100万Token 有效期:百炼开通后180天内 |
qwen-coder-turbo-latest 等同qwen-coder-turbo最新的快照版本 | 最新版 | ||||||
qwen-coder-turbo-2024-09-19 又称qwen-coder-turbo-0919 | 快照版 |
文本生成-通义千问-开源版
模型名称中,xxb表示参数规模,例如qwen2-72b-instruct表示参数规模为72B,即720亿。
百炼支持调用通义千问的开源版,您无需本地部署模型。对于开源版,建议使用Qwen2.5或Qwen2模型。
QwQ
QwQ模型是由 Qwen 团队开发的实验性研究模型,专注于增强 AI 推理能力,尤其是数学和编程领域。QwQ模型的局限性请参见QwQ官方博客。使用方法 | API参考|在线体验
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||
qwq-32b-preview | 32,768 | 30,720 | 16,384 | 0.0035元 | 0.007元 | 100万Token 有效期:百炼开通后180天内 |
Qwen2.5
Qwen2.5是Qwen大型语言模型的最新系列。针对Qwen2.5,我们发布了一系列基础语言模型和指令调优语言模型,参数规模从5亿到720亿不等。Qwen2.5在Qwen2基础上进行了以下改进:
在我们最新的大规模数据集上进行预训练,包含多达18万亿个Token。
由于我们在这些领域的专业专家模型,模型的知识显著增多,编码和数学能力也大大提高。
在遵循指令、生成长文本(超过8K个标记)、理解结构化数据(例如表格)和生成结构化输出(尤其是JSON)方面有显著改进。对系统提示的多样性更具弹性,增强了聊天机器人的角色扮演实现和条件设置。
支持超过29种语言,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||
qwen2.5-72b-instruct | 131,072 | 129,024 | 8,192 | 0.004元 | 0.012元 | 100万Token 有效期:百炼开通后180天内 |
qwen2.5-32b-instruct | 0.0035元 | 0.007元 | ||||
qwen2.5-14b-instruct | 0.002元 | 0.006元 | ||||
qwen2.5-7b-instruct | 0.001元 | 0.002元 | ||||
qwen2.5-3b-instruct | 32,768 | 30,720 | 限时免费 | |||
qwen2.5-1.5b-instruct | ||||||
qwen2.5-0.5b-instruct |
Qwen2
阿里云的通义千问2-开源版。使用方法 | API参考 | 在线体验
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||
qwen2-72b-instruct | 131,072 | 128,000 | 6,144 | 0.004元 | 0.012元 | 100万Token 有效期:百炼开通后180天内 |
qwen2-57b-a14b-instruct | 65,536 | 63,488 | 0.0035元 | 0.007元 | ||
qwen2-7b-instruct | 131,072 | 128,000 | 0.001元 | 0.002元 | ||
qwen2-1.5b-instruct | 32,768 | 30,720 | 限时免费 | |||
qwen2-0.5b-instruct |
Qwen1.5
阿里云的通义千问1.5-开源版。使用方法 | API参考 | 在线体验
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||
qwen1.5-110b-chat | 32,000 | 30,000 | 8,000 | 0.007元 | 0.014元 | 100万Token 有效期:百炼开通后180天内 |
qwen1.5-72b-chat | 2,000 | 0.005元 | 0.01元 | |||
qwen1.5-32b-chat | 0.0035元 | 0.007元 | ||||
qwen1.5-14b-chat | 8,000 | 6,000 | 0.002元 | 0.004元 | ||
qwen1.5-7b-chat | 0.001元 | 0.002元 | ||||
qwen1.5-1.8b-chat | 32,000 | 30,000 | 限时免费 | |||
qwen1.5-0.5b-chat |
Qwen
阿里云的通义千问-开源版。使用方法 | API参考 | 在线体验
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||
qwen-72b-chat | 32,000 | 30,000 | 2,000 | 0.02元 | 0.02元 | 100万Token 有效期:百炼开通后180天内 |
qwen-14b-chat | 8,000 | 6,000 | 0.008元 | 0.008元 | ||
qwen-7b-chat | 7,500 | 1,500 | 0.006元 | 0.006元 | ||
qwen-1.8b-chat | 8,000 | 2,000 | 限时免费 | |||
qwen-1.8b-longcontext-chat | 32,000 | 30,000 | 限时免费(需申请) |
Qwen-VL
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||
qwen2-vl-7b-instruct | 32,000 | 30,000 单图最大16384 | 2,000 | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。 | 10万Token 有效期:百炼开通后180天内 | |
qwen2-vl-2b-instruct | 限时免费 | |||||
qwen-vl-v1 | 8,000 | 6,000 单图最大1280 | 1,500 | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。 | ||
qwen-vl-chat-v1 |
Qwen-Audio
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||
qwen2-audio-instruct 相比qwen-audio-chat提升了音频理解能力,且新增了语音聊天能力。 | 8,000 | 6,000 | 1,500 | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。 | 10万Token 有效期:百炼开通后180天内 | |
qwen-audio-chat |
Qwen-Math
基于Qwen模型构建的专门用于数学解题的语言模型。Qwen2.5-Math相比Qwen2-Math有了实质性的改进。Qwen2.5-Math支持中文和英文,并整合了多种推理方法,包括CoT(Chain of Thought)、PoT(Program of Thought)和 TIR(Tool-Integrated Reasoning)。使用方法 | API参考| 在线体验
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||
qwen2.5-math-72b-instruct | 4,096 | 3,072 | 3,072 | 0.004元 | 0.012元 | 100万Token 有效期:百炼开通后180天内 |
qwen2.5-math-7b-instruct | 0.001元 | 0.002元 | ||||
qwen2.5-math-1.5b-instruct | 限时免费 | |||||
qwen2-math-72b-instruct | 0.004元 | 0.012元 | ||||
qwen2-math-7b-instruct | 0.001元 | 0.002元 | ||||
qwen2-math-1.5b-instruct | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。 |
Qwen-Coder
通义千问代码模型开源版。Qwen2.5-Coder相比CodeQwen1.5有了实质性的改进。Qwen2.5-Coder在包含5.5万亿Token的编程相关数据上进行了训练,使即使较小的编程专用模型也能在编程评估基准测试中表现出媲美大型语言模型的竞争力。API参考 | 在线体验
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||
qwen2.5-coder-32b-instruct | 131,072 | 129,024 | 8,192 | 0.0035元 | 0.007元 | 100万Token 有效期:百炼开通后180天内 |
qwen2.5-coder-14b-instruct | 0.002元 | 0.006元 | ||||
qwen2.5-coder-7b-instruct | 0.001元 | 0.002元 | ||||
qwen2.5-coder-3b-instruct | 32,768 | 30,720 | 限时免费 | 限时免费 | ||
qwen2.5-coder-1.5b-instruct | 100万Token 有效期:百炼开通后180天内 | |||||
qwen2.5-coder-0.5b-instruct | 限时免费 |
文本生成-第三方模型
Llama-仅文本输入
Meta推出的大语言模型,下列模型只支持输入文本。API参考 | 在线体验(需申请)
模型名称 | 上下文长度 | 最大输入 | 输入输出成本 | 免费额度 |
(Token数) | ||||
llama3.3-70b-instruct | 32,000 | 30,000 | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。 | 100万Token(需申请) 有效期:百炼开通后180天内。 |
llama3.2-3b-instruct | ||||
llama3.2-1b-instruct | ||||
llama3.1-405b-instruct | ||||
llama3.1-70b-instruct | ||||
llama3.1-8b-instruct | ||||
llama3-70b-instruct | 8,000 | 8,000 | ||
llama3-8b-instruct | ||||
llama2-13b-chat-v2 | 4,000 | 4,000 | ||
llama2-7b-chat-v2 |
Llama-文本和图像输入
Meta推出的大语言模型,下列模型支持输入文本和图像。API参考 | 在线体验(需申请)
模型名称 |
上下文长度 |
输入输出成本 |
免费额度 |
(Token数) |
|||
llama3.2-90b-vision-instruct |
8192 |
目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。 |
100万Token(需申请) 有效期:百炼开通后180天内。 |
llama3.2-11b-vision |
百川
百川智能推出的大语言模型。API参考 | 在线体验(需申请)
模型名称 | 上下文长度 | 最大输入 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||
baichuan2-turbo | 32,000 | 32,000 | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。 | 100万Token(需申请) 有效期:申请通过后180天内 |
百川-开源版
来自百川智能,该系列模型在平台中支持微调训练。API参考 | 在线体验(需申请)
模型名称 | 上下文长度 | 最大输入 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||
baichuan2-13b-chat-v1 | 4096 | 4096 | 0.008元 | 0.008元 | 100万Token(需申请) 有效期:百炼开通后180天内 |
baichuan2-7b-chat-v1 | 0.006元 | 0.006元 | |||
baichuan-7b-v1 | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。 | 100万Token(需申请) 有效期:百炼开通后180天内 |
ChatGLM
模型名称 | 上下文长度 | 最大输入 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | ||||
chatglm3-6b | 7500 | 7500 | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。 | 100万Token 有效期:百炼开通后180天内 | |
chatglm-6b-v2 | 6500 | 6500 | 0.006元 | 0.006元 | 100万Token(需申请) 有效期:百炼开通后180天内 |
零一万物
零一万物推出的大语言模型。API参考 | 在线体验(需申请)
模型名称 | 上下文长度 | 最大输入 | 输入输出成本 | 免费额度 |
(Token数) | ||||
yi-large | 32,000 | 32,000 | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。 | 100万Token(需申请) 有效期:申请通过后180天内 |
yi-medium | ||||
yi-large-rag 有实时联网能力 | 16,000 | 16,000 | ||
yi-large-turbo |
MiniMax
MiniMax推出的大语言模型。API参考 | 在线体验(需申请)
模型名称 | 说明 | 上下文长度 | 最大输入 | 输入输出成本 | 免费额度 |
(Token数) | |||||
abab6.5g-chat | 适合英文场景 | 8,000 | 8,000 | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。 | 100万Token(需申请) 有效期:申请通过后180天内 |
abab6.5t-chat | 适合中文场景 | ||||
abab6.5s-chat | 适合超长文本场景 | 245,000 | 245,000 |
姜子牙
IDEA研究院推出的大语言模型。API参考
模型名称 | 输入输出成本 |
ziya-llama-13b-v1 | 限时免费(需申请) |
BELLE
BELLE推出的大语言模型。API参考
模型名称 | 输入输出成本 |
belle-llama-13b-2m-v1 | 限时免费(需申请) |
元语
元语智能推出的大语言模型。API参考
模型名称 | 输入输出成本 |
chatyuan-large-v2 | 限时免费(需申请) |
BiLLa
BiLLa是开源的推理能力增强的中英双语LLaMA模型,较大提升LLaMA的中文理解能力, 并尽可能减少对原始LLaMA英文能力的损伤。API参考
模型名称 | 输入输出成本 |
billa-7b-sft-v1 | 限时免费(需申请) |
图像生成-通义万相与图像编辑
通用图像生成
可以基于输入的文本生成图片。此外,还支持输入参考图片,并参考图片内容或者图片风格进行图片生成。API参考 | 在线体验
模型名称 | 示例输入 | 示例输出 | 单价 | 免费额度(注) |
wanx-v1 | 提示词:一只小狗在笑 | 0.16元/张 | 500张 有效期:百炼开通后180天内 |
涂鸦作画
基于输入的手绘图加文字描述,即可生成精美的涂鸦绘画作品。API参考
模型名称 | 示例输入 | 示例输出 | 单价 | 免费额度(注) |
wanx-sketch-to-image-lite | 提示词:一棵参天大树 | 0.06元/张 | 500张 有效期:百炼开通后180天内 |
图像布局重绘
根据用户输入的原始图片和局部涂抹图、prompt提示词文字内容,生成符合语义描述的多样化风格的局部重绘图像。API参考
模型名称 | 示例输入 | 示例输出 | 单价 | 免费额度(注) |
wanx-x-painting | 布局涂抹图: 提示词:一只狗戴着红色眼镜 | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。 | 500张 有效期:百炼开通后180天内 |
人像风格重绘
人像风格重绘可以将输入的人物图像进行多种风格化的重绘生成,使新生成的图像在兼顾原始人物相貌的同时,带来不同风格的绘画效果。API参考
模型名称 | 示例输入 | 示例输出 | 单价 | 免费额度(注) |
wanx-style-repaint-v1 | 风格:清雅国风 | 0.12元/张 | 500张 有效期:百炼开通后180天内 |
图像背景生成
图像背景生成可以基于输入的前景图像素材拓展生成背景信息,实现自然的光影融合效果,与细腻的写实画面生成。支持文本描述、图像引导等多种方式,同时支持对生成的图像智能添加文字内容。API参考
模型名称 | 示例输入 | 示例输出 | 单价 | 免费额度(注) |
wanx-background-generation-v2 | 提示词:在桌面上,旁边有插着花朵的花瓶,背后是纯色高级的背景墙。 | 0.08元/张 | 500张 有效期:百炼开通后180天内 |
图像画面扩展
图像画面大模型,对输入图像进行画面自由扩展,支持旋转画面,支持按照扩展系数和扩展像素数两种方式进行扩图。用户可以通过指定宽度、高度画面扩展比例或者左、右、上、下的扩展的像素值来控制画面扩展,可用于创意娱乐、辅助作图、画面设计、影视后期制作等场景。API参考
模型名称 | 示例输入 | 示例输出 | 单价 | 免费额度(注) |
image-out-painting | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。 | 500张 有效期:百炼开通后180天内 |
人物实例分割
输入人物图像,模型识别出图像中的不同人物对象并画出每个对象边界的像素级掩码。API参考
模型名称 | 示例输入 | 示例输出 | 单价 | 免费额度 |
image-instance-segmentation | 输出结果1:像素级掩码图像 输出结果2:可视化图像 | 限时免费 |
图像擦除补全
输入图像并指定待擦除区域掩码图像以及保留区域掩码图像,模型在保留原图背景的同时擦除指定图像区域。API参考
针对人物图像的擦除、补全,推荐通过人物实例分割得到图像中不同人物对象的图像掩码,选择完整的人物图像掩码擦除一个或多个人物。
模型名称 | 示例输入 | 示例输出 | 单价 | 免费额度 |
image-erase-completion | 原图 待擦除区域 保留区域 | 限时免费 |
动漫人物生成
Cosplay动漫人物生成通过输入人像图片和卡通形象图片,可快速生成人物卡通写真。API参考
模型名称 | 示例输入 | 示例输出 | 单价 | 免费额度(注) |
wanx-style-cosplay-v1 | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。 | 300张 有效期:百炼开通后180天内 |
虚拟模特
可以对上传的真人实拍商品展示图进行智能生成,将其中的模特和背景替换为心仪的内容,在保持人物姿态不变的情况下,使用虚拟模特对商品进行更加精美、多样的展示。支持各种与模特产生互动的商品,如手持小商品、服装、鞋靴、配饰等。
V2相比V1,生成图片分辨率为短边1024或2048,支持改变分辨率,文本引导效果更准确。API参考
模型名称 | 版本 | V2示例输入 | V2示例输出 | 单价 | 免费额度(注) |
wanx-virtualmodel | V1 | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。 | 500张 有效期:百炼开通后180天内 | ||
virtualmodel-v2 | V2 | 限时免费 |
鞋靴模特
鞋靴模特支持输入多视角鞋靴系列图片,同时对输入模特模板图的鞋子区域进行鞋靴AI试穿,实现模特鞋靴布局重绘生成,最终生成图片的效果,布局自然、细节丰富、画面细腻、试穿结果逼真。可用于模特商品图设计、新鞋AI试穿、模特穿戴布局重绘等场景。API参考
模型名称 | 示例输入 | 示例输出 | 单价 | 免费额度 |
shoemodel-v1 | 公测中 | 无 |
创意海报生成
根据您的要求自动生成海报的背景和文字排版,支持多种海报风格。无需设计基础,轻松制作出彩作品,让创意触手可及。API参考
模型名称 | 示例输入 | 示例输出 | 单价 | 免费额度(注) |
wanx-poster-generation-v1 | "title":"元宵节", "sub_title":"正月十五", "body_text":"团圆时节,汤圆香甜,祝你幸福美满!", "prompt_text_zh":"灯笼,小猫,梅花", "wh_ratios":"竖版", "lora_name":"童话油画", | 限时免费 | 500张 有效期:百炼开通后180天内 |
图配文
您只要输入背景图和文字,就能将文字排版到图片上,形成一张完整的图文海报。API参考
模型名称 | 示例输入 | 示例输出 | 单价 | |
wanx-ast | "title":"Lorem Ipsum", "subtitle":"Duis aute irure dolor in reprehenderit", "text":"VIEW NOW", "underlay": 1, "logo": | 限时免费 |
人物写真生成-FaceChain
人物图像检测:对用户上传的人物图像进行检测,判断其中所包含的人脸是否符合Facechain微调所需的标准,检测维度包括人脸数量、大小、角度、光照、清晰度等多维度,支持图像组输入,并返回每张图像对应的检测结果。API参考
人物形象训练:对上传的图像进行模型训练,从而获得该图像中对应人物的resource,基于该resource可以实现人物的写真生成。API参考
人物写真生成:基于人物形象训练已经得到的形象,可以继续通过人物生成写真模型完成该形象的写真生成,支持多种预设风格,包括证件照、商务写真等。API参考
模型名称 | 说明 | 示例输入 | 示例输出 | 单价 | 免费额度(注) |
facechain-facedetect | 人物图像检测 | 风格:商务写真 | 限时免费 | 限时免费 | |
facechain-finetune | 人物形象训练 | 2.5元/次 | 50次 有效期:申请通过后180天内 | ||
facechain-generation | 人物写真生成 | 0.18元/张 | 500张 有效期:申请通过后180天内 |
创意文字生成-WordArt锦书
文字纹理生成:可以对输入的文字内容或文字图片进行创意设计,根据提示词内容对文字添加材质和纹理,实现立体凸显或场景融合的效果,生成效果精美、风格多样的艺术字,结合背景可以直接作为文字海报使用。API参考
文字变形:可以对输入的文字边缘轮廓进行创意变形,根据提示词内容进行边缘变化,实现一种字体的更多种创意用法,返回带有文字内容的黑底白色mask图。API参考
百家姓生成:可以输入姓氏文字进行创意设计,支持根据提示词和风格引导图进行自定义设计,同时提供多种精美的预设风格模板,生成图片可以应用于个性社交场景,如作为个人头像、屏幕壁纸、字体表情包等。API参考
模型名称 | 说明 | 示例输入 | 示例输出 | 单价 | 免费额度(注) |
wordart-texture | 文字纹理生成 | 提示词:精美玉石 风格类型:立体材质 | 0.08元/张 | 500张 有效期:百炼开通后365天内 | |
wordart-semantic | 文字变形 | 文字:桂林山水 提示词:山峦叠嶂、漓江蜿蜒、岩石奇秀 | 0.24元/张 | ||
wordart-surnames | 百家姓生成 | 百家姓:沈 风格:奇幻楼阁 | 暂无 | 500张 有效期:百炼开通后180天内 |
AI试衣
模型名称 | 说明 | 示例输入 | 示例输出 | 免费额度(注) |
aitryon | AI试衣 | 300张 有效期:百炼开通后180天内 | ||
aitryon-refiner | AI试衣-图片精修 | 100张 有效期:百炼开通后180天内 |
图像生成-第三方模型
Stable Diffusion
模型名称 | 说明 | 单价 | 免费额度(注) |
stable-diffusion-3.5-large | 具有8亿参数的多模态扩散变压器(MMDiT)文本到图像生成模型,具备卓越的图像质量和提示词匹配度,支持生成100万像素的高分辨率图像,且能够在普通消费级硬件上高效运行。相比于v1.5和xl,在图像质量、文本内容生成、复杂提示理解和资源效率方面均有显著提升。 | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。 | 500张 有效期:申请通过后180天内 |
stable-diffusion-3.5-large-turbo | 在stable-diffusion-3.5-large的基础上采用对抗性扩散蒸馏(ADD)技术的模型,具备更快的速度。 | ||
stable-diffusion-xl | 相比v1.5做了重大改进,被认为是当前开源文生图模型的SOTA水准,具体改进包括:unet backbone是之前的3倍;增加了refinement模块用于改善生成图片的质量;更高效的训练技巧等。 | ||
stable-diffusion-v1.5 | 通过clip模型将文本的embedding和图片embedding映射到相同空间,从而通过输入文本并结合unet的稳定扩散预测噪声的能力,生成图片。是一款基础的文生图模型,得到了业界广泛使用。 |
FLUX
Black Forest Labs的开源文生图模型,尤其擅长生成包含文字、多主体、手部细节的图片。
模型名称 | 说明 | 单价 | 免费额度(注) |
flux-merged | 结合了flux-dev的深度和flux-schnell的快速执行。 | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。 | 1000张 有效期:百炼开通后180天内 |
flux-dev | 开发者版,面向非商业应用,具有与专业版相近的图像质量和指令遵循能力,同时运行效率更高。 | ||
flux-schnell | 快速版,轻量级模型。 | 计费方案即将推出。 |
语音合成(文本转语音)
CosyVoice
CosyVoice是通义实验室依托大规模预训练语言模型,深度融合文本理解和语音生成的新一代生成式语音合成大模型,支持文本至语音的实时流式合成。API参考 | 在线体验
模型名称 | 单价 | 免费额度 |
cosyvoice-v1 | 2元/万字符 根据待合成字符数计费(其中1个汉字算2个字符,英文、标点符号、空格均按照1个字符计费)。 | 每主账号每模型每月2000字符。 |
音色列表:
模型名称 | voice参数 | 音色 | 音频试听 | 适用场景 | 语言 | 默认采样率(Hz) | 默认音频格式 |
cosyvoice-v1 | longxiaochun | 龙小淳 | 语音助手、 导航播报、 聊天数字人 | 中文+英文 | 22050 | mp3 | |
cosyvoice-v1 | longxiaoxia | 龙小夏 | 语音助手、聊天数字人 | 中文 | 22050 | mp3 | |
cosyvoice-v1 | longxiaocheng | 龙小诚 | 语音助手、导航播报、聊天数字人 | 中文+英文 | 22050 | mp3 | |
cosyvoice-v1 | longxiaobai | 龙小白 | 聊天数字人、有声书、语音助手 | 中文 | 22050 | mp3 | |
cosyvoice-v1 | longlaotie | 龙老铁 | 新闻播报、有声书、语音助手、直播带货、导航播报 | 中文东北口音 | 22050 | mp3 | |
cosyvoice-v1 | longshu | 龙书 | 有声书、语音助手、导航播报、新闻播报、智能客服 | 中文 | 22050 | mp3 | |
cosyvoice-v1 | longshuo | 龙硕 | 语音助手、导航播报、新闻播报、客服催收 | 中文 | 22050 | mp3 | |
cosyvoice-v1 | longjing | 龙婧 | 语音助手、导航播报、新闻播报、客服催收 | 中文 | 22050 | mp3 | |
cosyvoice-v1 | longmiao | 龙妙 | 客服催收、导航播报、有声书、语音助手 | 中文 | 22050 | mp3 | |
cosyvoice-v1 | longyue | 龙悦 | 语音助手、诗词朗诵、有声书朗读、导航播报、新闻播报、客服催收 | 中文 | 22050 | mp3 | |
cosyvoice-v1 | longyuan | 龙媛 | 有声书、语音助手、聊天数字人 | 中文 | 22050 | mp3 | |
cosyvoice-v1 | longfei | 龙飞 | 会议播报、新闻播报、有声书 | 中文 | 22050 | mp3 | |
cosyvoice-v1 | longjielidou | 龙杰力豆 | 新闻播报、有声书、聊天助手 | 中文+英文 | 22050 | mp3 | |
cosyvoice-v1 | longtong | 龙彤 | 有声书、导航播报、聊天数字人 | 中文 | 22050 | mp3 | |
cosyvoice-v1 | longxiang | 龙祥 | 新闻播报、有声书、导航播报 | 中文 | 22050 | mp3 | |
cosyvoice-v1 | loongstella | Stella | 语音助手、直播带货、导航播报、客服催收、有声书 | 中文+英文 | 22050 | mp3 | |
cosyvoice-v1 | loongbella | Bella | 语音助手、客服催收、新闻播报、导航播报 | 中文 | 22050 | mp3 |
Sambert
Sambert语音合成API基于达摩院改良的自回归韵律模型,支持文本至语音的实时流式合成。API参考
模型名称 | 单价 | 免费额度 |
见下表 | 1元/万字符 根据待合成字符数计费(其中1个汉字算2个字符,英文、标点符号、空格均按照1个字符计费)。SSML标签内容不计费。 | 每主账号每模型每月3万字符。 |
模型(音色)列表:
模型名称 | 音色 | 音频试听 | 时间戳支持 | 适用场景 | 特色 | 语言 | 默认采样率(Hz) |
sambert-zhinan-v1 | 知楠 | 是 | 通用场景 | 广告男声 | 中文+英文 | 48k | |
sambert-zhiqi-v1 | 知琪 | 是 | 通用场景 | 温柔女声 | 中文+英文 | 48k | |
sambert-zhichu-v1 | 知厨 | 是 | 新闻播报 | 舌尖男声 | 中文+英文 | 48k | |
sambert-zhide-v1 | 知德 | 是 | 新闻播报 | 新闻男声 | 中文+英文 | 48k | |
sambert-zhijia-v1 | 知佳 | 是 | 新闻播报 | 标准女声 | 中文+英文 | 48k | |
sambert-zhiru-v1 | 知茹 | 是 | 新闻播报 | 新闻女声 | 中文+英文 | 48k | |
sambert-zhiqian-v1 | 知倩 | 是 | 配音解说、新闻播报 | 资讯女声 | 中文+英文 | 48k | |
sambert-zhixiang-v1 | 知祥 | 是 | 配音解说 | 磁性男声 | 中文+英文 | 48k | |
sambert-zhiwei-v1 | 知薇 | 是 | 阅读产品简介 | 萝莉女声 | 中文+英文 | 48k | |
sambert-zhihao-v1 | 知浩 | 是 | 通用场景 | 咨询男声 | 中文+英文 | 16k | |
sambert-zhijing-v1 | 知婧 | 是 | 通用场景 | 严厉女声 | 中文+英文 | 16k | |
sambert-zhiming-v1 | 知茗 | 是 | 通用场景 | 诙谐男声 | 中文+英文 | 16k | |
sambert-zhimo-v1 | 知墨 | 是 | 通用场景 | 情感男声 | 中文+英文 | 16k | |
sambert-zhina-v1 | 知娜 | 是 | 通用场景 | 浙普女声 | 中文+英文 | 16k | |
sambert-zhishu-v1 | 知树 | 是 | 通用场景 | 资讯男声 | 中文+英文 | 16k | |
sambert-zhistella-v1 | 知莎 | 是 | 通用场景 | 知性女声 | 中文+英文 | 16k | |
sambert-zhiting-v1 | 知婷 | 是 | 通用场景 | 电台女声 | 中文+英文 | 16k | |
sambert-zhixiao-v1 | 知笑 | 是 | 通用场景 | 资讯女声 | 中文+英文 | 16k | |
sambert-zhiya-v1 | 知雅 | 是 | 通用场景 | 严厉女声 | 中文+英文 | 16k | |
sambert-zhiye-v1 | 知晔 | 是 | 通用场景 | 青年男声 | 中文+英文 | 16k | |
sambert-zhiying-v1 | 知颖 | 是 | 通用场景 | 软萌童声 | 中文+英文 | 16k | |
sambert-zhiyuan-v1 | 知媛 | 是 | 通用场景 | 知心姐姐 | 中文+英文 | 16k | |
sambert-zhiyue-v1 | 知悦 | 是 | 客服 | 温柔女声 | 中文+英文 | 16k | |
sambert-zhigui-v1 | 知柜 | 是 | 阅读产品简介 | 直播女声 | 中文+英文 | 16k | |
sambert-zhishuo-v1 | 知硕 | 是 | 数字人 | 自然男声 | 中文+英文 | 16k | |
sambert-zhimiao-emo-v1 | 知妙(多情感) | 是 | 阅读产品简介、数字人、直播 | 多种情感女声 | 中文+英文 | 16k | |
sambert-zhimao-v1 | 知猫 | 是 | 阅读产品简介、配音解说、数字人、直播 | 直播女声 | 中文+英文 | 16k | |
sambert-zhilun-v1 | 知伦 | 是 | 配音解说 | 悬疑解说 | 中文+英文 | 16k | |
sambert-zhifei-v1 | 知飞 | 是 | 配音解说 | 激昂解说 | 中文+英文 | 16k | |
sambert-zhida-v1 | 知达 | 是 | 新闻播报 | 标准男声 | 中文+英文 | 16k | |
sambert-camila-v1 | Camila | 否 | 通用场景 | 西班牙语女声 | 西班牙语 | 16k | |
sambert-perla-v1 | Perla | 否 | 通用场景 | 意大利语女声 | 意大利语 | 16k | |
sambert-indah-v1 | Indah | 否 | 通用场景 | 印尼语女声 | 印尼语 | 16k | |
sambert-clara-v1 | Clara | 否 | 通用场景 | 法语女声 | 法语 | 16k | |
sambert-hanna-v1 | Hanna | 否 | 通用场景 | 德语女声 | 德语 | 16k | |
sambert-beth-v1 | Beth | 是 | 通用场景 | 咨询女声 | 美式英文 | 16k | |
sambert-betty-v1 | Betty | 是 | 通用场景 | 客服女声 | 美式英文 | 16k | |
sambert-cally-v1 | Cally | 是 | 通用场景 | 自然女声 | 美式英文 | 16k | |
sambert-cindy-v1 | Cindy | 是 | 通用场景 | 对话女声 | 美式英文 | 16k | |
sambert-eva-v1 | Eva | 是 | 通用场景 | 陪伴女声 | 美式英文 | 16k | |
sambert-donna-v1 | Donna | 是 | 通用场景 | 教育女声 | 美式英文 | 16k | |
sambert-brian-v1 | Brian | 是 | 通用场景 | 客服男声 | 美式英文 | 16k | |
sambert-waan-v1 | Waan | 否 | 通用场景 | 泰语女声 | 泰语 | 16k |
语音识别(语音转文本)
Paraformer
Paraformer语音识别服务只识别并转写音频中的语音内容,非语音内容不计费。实际转写时长通常短于原始音频时长。由于采用AI判断,可能存在少许误差。
默认情况下,仅转写并计费多轨音频文件的首轨。若指定转写多个音轨,则各音轨按语音时长单独计费。
关于实际计费时长,请查看返回结果中的content_duration字段。
录音文件识别
模型名称 | 支持的语言 | 支持的采样率 | 适用的格式 | 单价 | 免费额度 |
paraformer-v2 | 中文普通话、中文方言(粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话、江西话、云南话、上海话)、英语、日语、韩语 | 任意 | 视频直播、电话客服等 | 0.00008元/秒 | 36,000秒(10小时) 每月1日0点自动发放 有效期1个月 |
paraformer-8k-v2 | 中文普通话 | 8kHz | 电话语音 | ||
paraformer-v1 | 中文普通话、英语 | 任意 | 音频或视频 | ||
paraformer-8k-v1 | 中文普通话 | 8kHz | 电话语音 | ||
paraformer-mtl-v1 | 中文普通话、中文方言(粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话)、英语、日语、韩语、西班牙语、印尼语、法语、德语、意大利语、马来语 | 16kHz及以上 | 音频或视频 |
实时语音识别
模型名称 | 支持的语言 | 支持的采样率 | 适合场景 | 单价 | 免费额度 |
paraformer-realtime-v2 | 中文普通话、中文方言(粤语、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、宁夏话、山西话、陕西话、山东话、四川话、天津话、江西话、云南话、上海话)、英语、日语、韩语 支持多个语种自由切换 | 任意 | 视频直播、会议等 | 0.00024元/秒 | 36,000秒(10小时) 每月1日0点自动发放 有效期1个月 |
paraformer-realtime-v1 | 中文 | 16kHz | |||
paraformer-realtime-8k-v2 | 8kHz | 电话客服等 | |||
paraformer-realtime-8k-v1 |
SenseVoice
录音文件识别
专注于高精度多语言语音识别,还能识别情绪(高兴、悲伤、生气等)和特定事件(背景音乐、歌唱、掌声和笑声等)。API参考
只识别并转写音频中的语音内容,非语音内容不计费。实际转写时长通常短于原始音频时长。由于采用AI判断,可能存在少许误差。
默认情况下,仅转写并计费多轨音频文件的首轨。若指定转写多个音轨,则各音轨按语音时长单独计费。
关于实际计费时长,请查看返回结果中的content_duration_in_milliseconds字段。
模型名称 | 支持的语言 | 适用的格式 | 单价 | 免费额度 |
sensevoice-v1 | 超过50种语言(中、英、日、韩、粤等) | 音频或视频 | 0.0007 元/秒 | 36,000秒(10小时) 每月1日0点自动发放 有效期1个月 |
视频合成
悦动人像EMO
基于人物肖像图片和人声音频文件,生成人物肖像动态视频。使用时需依次调用下述模型。EMO 图像检测API详情 | EMO 视频生成API详情
emo-detect-v1与emo-detect、emo-v1与emo在调用方式及计费方式中有区别,模型效果完全相同。
模型名称 | 说明 | 单价 | 免费额度 |
emo-detect-v1 | 检测输入的图片是否符合要求,不需要部署,可直接调用 | 0.004元/张 | 200张 有效期:百炼开通后180天内 |
emo-v1 | 生成人物肖像动态视频,不需要部署,可直接调用 |
| 1800秒 有效期:百炼开通后180天内 |
emo-detect | 检测输入的图片是否符合要求,仅支持部署后调用 | 当前仅支持部署后调用,仅收取部署费用。 部署单价:20元/算力单元/小时 | 无 |
emo | 生成人物肖像动态视频,仅支持部署后调用 |
灵动人像LivePortrait
基于人物肖像图片和人声音频文件,快速、轻量地生成人物肖像动态视频。与悦动人像EMO模型相比,生成速度快、价格低,但是生成效果不如悦动人像EMO模型。使用时需依次调用下述两个模型。LivePortrait 图像检测API详情 | LivePortrait 视频生成API详情
模型名称 | 说明 | 单价 | 免费额度 |
liveportrait-detect | 检测输入的图片是否符合要求 | 0.004元/张 | 200张 有效期:百炼开通后180天内 |
liveportrait | 生成人物肖像动态视频 | 0.02元/秒 | 1800秒 有效期:百炼开通后180天内 |
声动人像VideoRetalk
基于人物视频和人声音频,生成人物讲话口型与输入音频相匹配的视频。使用时需调用下述模型。VideoRetalk 视频生成API详情
模型名称 | 说明 | 单价 | 免费额度 |
videoretalk | 生成人物讲话口型与输入音频相匹配的新视频 | 0.08元/秒 | 1800秒 有效期:百炼开通后180天内 |
舞动人像AnimateAnyone
基于人物图片和人物动作模板,生成人物动作视频。直接使用时需依次调用下述三个模型。AnimateAnyone图像检测 API详情 | AnimateAnyone 动作模板生成API详情| AnimateAnyone视频生成API详情
模型名称 | 说明 | 单价 | 免费额度 |
animate-anyone-detect-gen2 | 检测输入的图片是否符合要求 | 0.004元/张 | 200张 有效期:百炼开通后180天内 |
animate-anyone-template-gen2 | 从人物运动视频中提取人物动作并生成动作模板 | 0.08元/秒 | 1800秒 有效期:百炼开通后180天内 |
animate-anyone-gen2 | 基于人物图片和动作模板生成人物动作视频 | 0.08元/秒 | 1800秒 有效期:百炼开通后180天内 |
下面两个模型支持独立部署。模型部署后,模型调用参考这两个API详情。AnimateAnyone图像检测 API详情 | AnimateAnyone视频生成API详情
模型名称 | 说明 | 单价 | 免费额度 |
animate-anyone-detect | 检测输入图片是否符合要求 | 当前仅支持部署后调用,仅收取部署费用。部署单价:
| 无 |
animate-anyone | 基于人物图片和动作模板生成人物动作视频 |
模型效果示例
输入:人物图片 | 输入:动作视频 | 输出(按图片背景生成) | 输出(按视频背景生成) |
以上示例,由集成了“舞动人像AnimateAnyone”的通义APP生成。
舞动人像AnimateAnyone模型的生成内容为视频画面,不包含音频。
幻影人像Motionshop
将视频中的人物替换为指定的3D角色形象,并合成新视频。使用时需依次调用下述模型。Motionshop 视频检测API详情 | Motionshop 3D角色生成API详情 | Motionshop 视频合成API详情(需申请)
模型名称 | 说明 | 单价 | 免费额度 |
motionshop-video-detect | 检测输入的视频是否符合要求 | 0.04元/次 | 50次(需申请) 有效期:申请通过后180天内 |
motionshop-gen3d | 基于人物图片生成符合要求的3D角色形象 | 1元/次 | 5次(需申请) 有效期:申请通过后180天内 |
motionshop-synthesis | 将视频中的人物替换为指定的3D角色形象,并合成新视频 | 0.2元/秒 | 600秒(需申请) 有效期:申请通过后180天内 |
视频编辑与生成
支持根据用户输入的文字内容,生成符合语义描述的不同风格的视频,或者根据用户输入的视频,进行视频风格重绘。API参考
模型名称 | 说明 | 计费 | 免费额度 |
video-style-transform | 视觉风格重绘 | 限时免费 |
模型效果示例
原始视频(输入) | 日式漫画(输出) |
文本向量
文本向量模型用于将文本转换成一组可以代表文字的数字,适用于搜索、聚类、推荐、分类任务。模型根据输出Token数计费。同步接口API详情 | 批处理接口API详情
模型名称 | 向量维度 | 最大行数 | 单行最大处理Token数 | 支持语种 | 单价 (每千Token) | 免费额度(注) |
text-embedding-v3 | 1024 768 512 | 6 | 8192 | 中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语等50+语种 | 0.0007元 | 50万Token 有效期:百炼开通后180天内 |
text-embedding-v2 | 1536 | 25 | 2048 | 中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语 | ||
text-embedding-v1 | 中文、英语、西班牙语、法语、葡萄牙语、印尼语 | |||||
text-embedding-async-v2 | 100000 | 中文、英语、西班牙语、法语、葡萄牙语、印尼语、日语、韩语、德语、俄罗斯语 | 2000万Token 有效期:百炼开通后180天内 | |||
text-embedding-async-v1 | 中文、英语、西班牙语、法语、葡萄牙语、印尼语 |
多模态向量
ONE-PEACE
多模态向量模型将文本、图像、语音转换成一组数字,适用于音视频分类、图像分类、图文检索等。API参考
计费规则:按输入音频、图像和文本的加权条目数计费。加权条目数 = 音频数目 * 音频加权权重(2) + 图像张数 * 图像加权权重(1) + 文字条数 * 文字加权权重(1)
模型名称 | 数据类型 | 向量维度 | 单价 | 免费额度(注) |
multimodal-embedding-one-peace-v1 | float(32) | 1536 | 目前仅供免费体验。 免费额度用完后不可调用,敬请关注后续动态。 | 10,000加权条目数 有效期:百炼开通后180天内 |
文本分类、抽取、排序
OpenNLU
针对给定的文本(中文或英文)进行信息抽取或文本分类。模型根据输出Token数计费。API参考
模型名称 | 最大输入Token数 | 单价(每千Token) | 免费额度(注) |
opennlu-v1 | 1024 | 0.00465元 | 100万Token 有效期:百炼开通后180天内 |
文本排序模型
通常用于语义检索,即给定查询 (Query) 和一系列候选文本 (documents),会根据与查询的语义相关性从高到低对候选文本进行排序。API参考
模型名称 | 最大Token数 | 单次请求最大doc数 | 单行最大输入字符长度 | 支持语言 | 单价 | 免费额度 |
gte-rerank | 4000 | 500 | 30000 | 中、英、日、韩、泰语、西、法、葡、德、印尼语、阿拉伯语等50+语种 | 限时免费 | 开通百炼后自动发放 |
最大Token长度:模型处理的单条(Query+Document)的最大Token数量,超过该最大长度的文本会进行截断。
单行最大输入字符长度:SDK和API能接收的Query和单条Document最大长度。
行业
通义法睿
适用于回答法律问题、推荐裁判类案、辅助案情分析、生成法律文书、检索法律知识、审查合同条款等。API参考 | 在线体验
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 |
(Token数) | (每千Token) | ||||
farui-plus | 12k | 12k | 2k | 0.02元 |
意图理解
通义意图理解模型,能够在毫秒级时间内快速、准确地解析用户意图,并选择合适工具来解决用户问题。API参考|使用方法
模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本 | 输出成本 | 免费额度 |
(Token数) | (每千Token) | |||||
tongyi-intent-detect-v3 | 8,192 | 8,192 | 1,024 | 0.0008元 | 0.002元 | 100万Token 有效期:百炼开通后180天内 |