本文为您介绍智能语音交互的各项功能及其对应场景、支持的语音格式和调用方式。
功能服务参数表
服务 | 时效性 | 功能 | 适用场景 | 支持的语音格式 | 支持调用方式 | 免费调用量 | 购买 |
一句话识别 | 实时 | 识别一分钟内的短语音。 | App语音搜索、语音电话客服、对话聊天、控制口令等场景。 | PCM编码(无压缩的PCM或WAV文件)、WAV、OPUS、AMR格式单声道(mono)音频文件,16bit采样位数 | Java/C++/Python/C#/Go/Node.js/RestfulAPI/Android/iOS/微信小程序/Harmony | 最大2个并发 | |
实时语音识别 | 实时 | 识别长时间的语音数据流。 | 会议演讲、视频直播等长时间不间断语音场景。 | PCM(无压缩的PCM或WAV文件)、16 bit采样位数、单声道(mono) | Java/C++/Python/C#/Go/Node.js/Android/iOS/微信小程序/ WebSocket/Harmony | 最大2个并发 | |
录音文件识别 | 非实时 | 录音文件上传后(文件大小不超过512 MB),针对免费用户,可在24小时内完成识别并返回识别文本;针对付费用户,可在3小时内完成识别并返回识别文本。 说明 一次性上传大规模数据(半小时内上传超过500小时时长的录音)的除外,如果您有大规模数据转写需求,可与售前专家联系。 | 非实时识别场景。 | 支持单轨/双轨的WAV、MP3、MP4、M4A、WMA、AAC、OGG、AMR、FLAC | Java/C++/Go/.NET/Node.js/PHP/Python | 每个自然日最多识别2小时时长的录音文件 说明 新用户试用期3个月内,每隔24小时可免费识别2小时时长的文件转写服务。免费额度用完后,间隔24小时后可继续试用。 | |
录音文件识别极速版 | 实时 | 支持100 MB以内且时长不超过2小时的音频文件的识别。 | 短视频编辑工具、 电台和报社字幕内容。 | AAC、MP3、MP4、OPUS、WAV | HTTP POST/Android/iOS/Harmony | 暂不支持免费试用 | |
录音文件识别闲时版 | 非实时 | 24小时异步返回识别结果,单文件限制512 MB,支持单轨/双轨。 | 语音质检、媒资管理、字幕生成及音视频价值信息挖掘等时效性要求不敏感的应用场景。 | 支持单轨/双轨WAV、MP3、MP4、M4A、WMA、AAC、OGG、AMR、FLAC | Java/C++/Go/.NET/Node.js/PHP/Python/RestfulAPI | 暂不支持免费试用 | |
声音事件检测 | 实时 | 检测识别音频中诸如背景音乐、哭声、笑声、爆炸声之类的声音,并标注出声音的起止时间。 | 安全陪护、多媒体违规内容审核、多媒体音视频辅助剪辑(笑声、哭闹等打点处理)等。 | PCM编码(无压缩的PCM或WAV文件)、16 bit采样位数、单声道(mono) | Java | 每日2小时音频文件限制 | |
说话人识别 | 实时 | 与语音库中该用户ID所对应的声音特征进行1:1比对验证。 | 适应于各类App的声音登录(类似人脸登录、人脸解锁),电话客服场景客户身份无感核验。 | PCM编码文件、16 bit采样位数、单声道(mono) | Java | 最大2个并发 | |
性别识别 | 实时 | 用于识别音频中说话人的性别(男或女)。 | 适应于各类社交App、电话客服等场景下的用户画像构建并进行精准推荐。 | PCM编码(无压缩的PCM或WAV文件)、16 bit采样位数、单声道(mono) | Java | 最大2个并发 | |
语种识别 | 实时 | 识别音频中语言种类,目前支持中、英、粤三个语种。 | 适应于智能客服、跨国会议、语音指令等场景下的语种判定。 | PCM编码(无压缩的PCM或WAV文件)、16 bit采样位数、单声道(mono) | Java | 最大2个并发 | |
语音合成 | 实时 | 合成长度不超过300个字符(UTF-8编码)的文本内容。 | 需要人工合成音的场景。 | PCM、WAV、MP3 | Java/C++/Python/C#/Go/Node.js/RestfulAPI/Android/iOS/微信小程序/Harmony | 最大2个并发 | |
长文本语音合成 | 实时 | 将超长文本(千字或万字)合成为语音二进制数据。 | 阅读小说、文章等场景。 | PCM、WAV、MP3 | Java/C++/Harmony | 暂不支持免费试用 | |
非实时 | RESTful API | ||||||
离线语音合成 | 实时 | 无网状态下,离线进行本地的语音合成。 | 语音播报、新闻小说、有声阅读、无障碍播报。 | PCM、WAV、MP3 | iOS/Android | 暂不支持免费试用 |
除录音文件识别和录音文件识别极速版以外的其他识别服务只支持单声道(mono)语音数据。
识别服务只支持8000 Hz/16000 Hz采样率、16 bit采样位数的音频。
语音识别语种模型
采样率(Hz) | 正式版/Beta版 | 中文普通话 | 方言 | 外语 |
16K | 正式版 | 普通话(兼容部分口音) | 湖北话、四川话、粤语、山西话、陕西话、东北话、天津话、甘肃话、贵州话、山东话、苏州话、浙江话、上海话、河南话、云南话、江西话、广西话、宁夏话、湖南话、维吾尔语、闽南语、粤语(繁体) | 英文、日语、阿拉伯语、哈萨克语、俄语、印尼语、越南语、泰语、西班牙语、韩语、法语、菲律宾语、印地语、德语、意大利语、马来语、荷兰语、泰米尔语、葡萄牙语、罗马尼亚语、乌克兰语、波兰语、土耳其语、希腊语、匈牙利语、爪哇语、孟加拉语、捷克语、乌尔都语、尼泊尔语、蒙古语(外蒙)、乌兹别克语、缅甸语、老挝语、斯瓦希里语、阿塞拜疆语、波斯语、僧伽罗语、加泰罗尼亚语、高棉语、希伯来语、克罗地亚语、豪萨语、马拉地语、泰卢固语、旁遮普语、瑞典语、保加利亚语、丹麦语、挪威语、坎纳达语、马拉雅拉姆语 |
8K | 正式版 | 普通话(兼容部分口音) | 粤语、四川话、河南话、湖北话、维吾尔语、广西话、粤语(繁体) | 英语、印尼语、菲律宾语、西班牙语、泰语、越南语、马来语 |
语音合成模型
名称 | voice参数值 | 类型 | 适用场景 | 支持语言 | 支持采样率(Hz) | 支持时间戳(字级别音素边界)接口 | 支持儿化音 | 声音品质 |
阿斌 | abin | 广东普通话 | 对话数字人 | 支持中文及中英文混合场景 | 8K/16K/24K/48K | 否 | 否 | 标准版 |
知小白 | zhixiaobai | 普通话女声 | 对话数字人 | 支持中文及中英文混合场景 | 8K/16K/24K/48K | 否 | 是 | 标准版 |
知小夏 | zhixiaoxia | 普通话女声 | 对话数字人 | 支持中文及中英文混合场景 | 8K/16K/24K/48K | 否 | 是 | 标准版 |
知小妹 | zhixiaomei | 普通话女声 | 直播数字人 | 支持中文及中英文混合场景 | 8K/16K/24K | 是 | 是 | 标准版 |
知柜 | zhigui | 普通话女声 | 直播数字人 | 支持中文及中英文混合场景 | 8K/16K | 是 | 是 | 标准版 |
知硕 | zhishuo | 普通话男声 | 客服数字人 | 支持中文及中英文混合场景 | 8K/16K | 是 | 是 | 标准版 |
艾夏 | aixia | 普通话女声 | 客服数字人 | 支持中文及中英文混合场景 | 8K/16K | 是 | 是 | 标准版 |
Cally | cally | 美式英文女声 | 英语口语对话数字人 | 仅支持纯英文场景 | 8K/16K | 是 | 是 | 标准版 |
知锋_多情感 | zhifeng_emo | 多种情感男声 | 通用场景 | 中文及中英文混合场景 | 8K/16K/24K | 是 | 是 | 标准版 |
知冰_多情感 | zhibing_emo | 多种情感男声 | 通用场景 | 中文及中英文混合场景 | 8K/16K/24K | 是 | 是 | 标准版 |
知妙_多情感 | zhimiao_emo | 多种情感女声 | 中英场景 | 中文及英文场景 | 8K/16K | 是 | 是 | 标准版 |
知米_多情感 | zhimi_emo | 多种情感女声 | 通用场景 | 中文及中英文混合场景 | 8K/16K | 是 | 否 | 标准版 |
知燕_多情感 | zhiyan_emo | 多种情感女声 | 通用场景 | 中文及中英文混合场景 | 8K/16K | 是 | 否 | 标准版 |
知贝_多情感 | zhibei_emo | 多种情感童声 | 通用场景 | 中文及中英文混合场景 | 8K/16K | 是 | 否 | 标准版 |
知甜_多情感 | zhitian_emo | 多种情感女声 | 通用场景 | 中文及中英文混合场景 | 8K/16K | 是 | 否 | 标准版 |
小云 | xiaoyun | 标准女声 | 通用场景 | 中文及中英文混合场景 | 8K/16K | 否 | 否 | lite版 |
小刚 | xiaogang | 标准男声 | 通用场景 | 中文及中英文混合场景 | 8K/16K | 否 | 否 | lite版 |
若兮 | ruoxi | 温柔女声 | 通用场景 | 中文及中英文混合场景 | 8K/16K/24K | 否 | 否 | 标准版 |
思琪 | siqi | 温柔女声 | 通用场景 | 中文及中英文混合场景 | 8K/16K/24K | 是 | 否 | 标准版 |
思佳 | sijia | 标准女声 | 通用场景 | 中文及中英文混合场景 | 8K/16K/24K | 否 | 否 | 标准版 |
思诚 | sicheng | 标准男声 | 通用场景 | 中文及中英文混合场景 | 8K/16K/24K | 是 | 否 | 标准版 |
艾琪 | aiqi | 温柔女声 | 通用场景 | 中文及中英文混合场景 | 8K/16K | 是 | 否 | 标准版 |
艾佳 | aijia | 标准女声 | 通用场景 | 中文及中英文混合场景 | 8K/16K | 是 | 否 | 标准版 |
艾诚 | aicheng | 标准男声 | 通用场景 | 中文及中英文混合场景 | 8K/16K | 是 | 否 | 标准版 |
艾达 | aida | 标准男声 | 通用场景 | 中文及中英文混合场景 | 8K/16K | 是 | 否 | 标准版 |
宁儿 | ninger | 标准女声 | 通用场景 | 纯中文场景 | 8K/16K/24K | 否 | 否 | 标准版 |
瑞琳 | ruilin | 标准女声 | 通用场景 | 纯中文场景 | 8K/16K/24K | 否 | 否 | 标准版 |
思悦 | siyue | 温柔女声 | 客服场景 | 中文及中英文混合场景 | 8K/16K/24K | 否 | 否 | 标准版 |
艾雅 | aiya | 严厉女声 | 客服场景 | 中文及中英文混合场景 | 8K/16K | 是 | 否 | 标准版 |
艾美 | aimei | 甜美女声 | 客服场景 | 中文及中英文混合场景 | 8K/16K | 是 | 否 | 标准版 |
艾雨 | aiyu | 自然女声 | 客服场景 | 中文及中英文混合场景 | 8K/16K | 是 | 否 | 标准版 |
艾悦 | aiyue | 温柔女声 | 客服场景 | 中文及中英文混合场景 | 8K/16K | 是 | 否 | 标准版 |
艾婧 | aijing | 严厉女声 | 客服场景 | 中文及中英文混合场景 | 8K/16K | 是 | 否 | 标准版 |
小美 | xiaomei | 甜美女声 | 客服场景 | 中文及中英文混合场景 | 8K/16K/24K | 否 | 否 | 标准版 |
艾娜 | aina | 浙普女声 | 客服场景 | 纯中文场景 | 8K/16K | 是 | 否 | 标准版 |
伊娜 | yina | 浙普女声 | 客服场景 | 纯中文场景 | 8K/16K/24K | 否 | 否 | 标准版 |
思婧 | sijing | 严厉女声 | 客服场景 | 纯中文场景 | 8K/16K/24K | 是 | 否 | 标准版 |
思彤 | sitong | 儿童音 | 童声场景 | 纯中文场景 | 8K/16K/24K | 否 | 否 | 标准版 |
小北 | xiaobei | 萝莉女声 | 童声场景 | 纯中文场景 | 8K/16K/24K | 是 | 否 | 标准版 |
艾彤 | aitong | 儿童音 | 童声场景 | 纯中文场景 | 8K/16K | 是 | 否 | 标准版 |
艾薇 | aiwei | 萝莉女声 | 童声场景 | 纯中文场景 | 8K/16K | 是 | 否 | 标准版 |
艾宝 | aibao | 萝莉女声 | 童声场景 | 纯中文场景 | 8K/16K | 是 | 否 | 标准版 |
Harry | harry | 英音男声 | 英文场景 | 英文场景 | 8K/16K | 否 | 否 | 标准版 |
Abby | abby | 美音女声 | 英文场景 | 英文场景 | 8K/16K | 是 | 否 | 标准版 |
Andy | andy | 美音男声 | 英文场景 | 英文场景 | 8K/16K | 否 | 否 | 标准版 |
Eric | eric | 英音男声 | 英文场景 | 英文场景 | 8K/16K | 否 | 否 | 标准版 |
Emily | emily | 英音女声 | 英文场景 | 英文场景 | 8K/16K | 否 | 否 | 标准版 |
Luna | luna | 英音女声 | 英文场景 | 英文场景 | 8K/16K | 是 | 否 | 标准版 |
Luca | luca | 英音男声 | 英文场景 | 英文场景 | 8K/16K | 否 | 否 | 标准版 |
Wendy | wendy | 英音女声 | 英文场景 | 英文场景 | 8K/16K/24K | 否 | 否 | 标准版 |
William | william | 英音男声 | 英文场景 | 英文场景 | 8K/16K/24K | 否 | 否 | 标准版 |
Olivia | olivia | 英音女声 | 英文场景 | 英文场景 | 8K/16K/24K | 否 | 否 | 标准版 |
姗姗 | shanshan | 粤语女声 | 方言场景 | 标准粤文(简体)及粤英文混合场景 | 8K/16K/24K | 否 | 否 | 标准版 |
小玥 | chuangirl | 四川话女声 | 方言场景 | 中文及中英文混合场景 | 8K/16K | 否 | 否 | 标准版 |
Lydia | lydia | 英中双语女声 | 英文场景 | 英文及英中文混合场景 | 8K/16K | 是 | 否 | 标准版 |
艾硕 | aishuo | 自然男声 | 客服场景 | 中文及中英文混合场景 | 8K/16K | 是 | 否 | 标准版 |
青青 | qingqing | 中国台湾话女声 | 方言场景 | 中文场景 | 8K/16K | 否 | 否 | 标准版 |
翠姐 | cuijie | 东北话女声 | 方言场景 | 中文场景 | 8K/16K | 否 | 是 | 标准版 |
小泽 | xiaoze | 湖南重口音男声 | 方言场景 | 中文场景 | 8K/16K | 否 | 否 | 标准版 |
智香 | tomoka | 日语女声 | 多语种场景 | 日文场景 | 8K/16K | 否 | 否 | 标准版 |
智也 | tomoya | 日语男声 | 多语种场景 | 日文场景 | 8K/16K | 否 | 否 | 标准版 |
Annie | annie | 美语女声 | 英文场景 | 英文场景 | 8K/16K | 是 | 否 | 标准版 |
佳佳 | jiajia | 粤语女声 | 方言场景 | 标准粤文(简体)及粤英文混合场景 | 8K/16K | 是 | 否 | 标准版 |
Indah | indah | 印尼语女声 | 多语种场景 | 纯印尼语场景 | 8K/16K | 否 | 否 | 标准版 |
桃子 | taozi | 粤语女声 | 方言场景 | 支持标准粤文(简体)及粤英文混合场景 | 8K/16K | 是 | 否 | 标准版 |
柜姐 | guijie | 亲切女声 | 通用场景 | 支持中文及中英文混合场景 | 8K/16K | 是 | 是 | 标准版 |
Stella | stella | 知性女声 | 通用场景 | 支持中文及中英文混合场景 | 8K/16K | 是 | 是 | 标准版 |
Stanley | stanley | 沉稳男声 | 通用场景 | 支持中文及中英文混合场景 | 8K/16K | 是 | 是 | 标准版 |
Kenny | kenny | 温暖男声 | 通用场景 | 支持中文及中英文混合场景 | 8K/16K | 是 | 是 | 标准版 |
Rosa | rosa | 自然女声 | 通用场景 | 支持中文及中英文混合场景 | 8K/16K | 是 | 是 | 标准版 |
Farah | farah | 马来语女声 | 多语种场景 | 仅支持纯马来语场景 | 8K/16K | 否 | 否 | 标准版 |
马树 | mashu | 儿童剧男声 | 通用场景 | 支持中文及中英文混合场景 | 8K/16K | 是 | 否 | 标准版 |
小仙 | xiaoxian | 亲切女声 | 直播场景 | 支持中文及中英文混合场景 | 8K/16K | 是 | 是 | 标准版 |
悦儿 | yuer | 儿童剧女声 | 通用场景 | 仅支持纯中文场景 | 8K/16K | 是 | 否 | 标准版 |
猫小美 | maoxiaomei | 活力女声 | 直播场景 | 支持中文及中英文混合场景 | 8K/16K | 是 | 是 | 标准版 |
艾飞 | aifei | 激昂解说 | 直播场景 | 支持中文及中英文混合场景 | 8K/16K | 是 | 是 | 标准版 |
亚群 | yaqun | 卖场广播 | 直播场景 | 支持中文及中英文混合场景 | 8K/16K | 是 | 是 | 标准版 |
巧薇 | qiaowei | 卖场广播 | 直播场景 | 支持中文及中英文混合场景 | 8K/16K | 是 | 是 | 标准版 |
大虎 | dahu | 东北话男声 | 方言场景 | 支持中文及中英文混合场景 | 8K/16K | 是 | 是 | 标准版 |
ava | ava | 美语女声 | 英文场景 | 仅支持纯英文场景 | 8K/16K | 是 | 否 | 标准版 |
艾伦 | ailun | 悬疑解说 | 直播场景 | 支持中文及中英文混合场景 | 8K/16K | 是 | 是 | 标准版 |
杰力豆 | jielidou | 治愈童声 | 童声场景 | 仅支持纯中文场景 | 8K/16K | 是 | 是 | 标准版 |
老铁 | laotie | 东北老铁 | 直播场景 | 仅支持纯中文场景 | 8K/16K | 是 | 是 | 标准版 |
老妹 | laomei | 吆喝女声 | 直播场景 | 仅支持纯中文场景 | 8K/16K | 是 | 是 | 标准版 |
艾侃 | aikan | 天津话男声 | 方言场景 | 仅支持纯中文场景 | 8K/16K | 是 | 是 | 标准版 |
Tala | tala | 菲律宾语女声 | 多语种场景 | 仅支持菲律宾语场景 | 8K/16K | 否 | 否 | 标准版 |
Tien | tien | 越南语女声 | 多语种场景 | 仅支持越南语场景 | 8K/16K | 否 | 否 | 标准版 |
Becca | becca | 美语客服女声 | 美式英语 | 支持纯英语场景 | 8K/16K | 否 | 否 | 标准版 |
Kyong | Kyong | 韩语女声 | 韩语场景 | 韩语 | 8K/16K | 否 | 否 | 标准版 |
masha | masha | 俄语女声 | 俄语场景 | 俄语 | 8K/16K | 否 | 否 | 标准版 |
camila | camila | 西班牙语女声 | 西班牙语场景 | 西班牙语 | 8k/16k | 否 | 否 | 标准版 |
perla | perla | 意大利语女声 | 意大利语场景 | 意大利语 | 8k/16k | 否 | 否 | 标准版 |
知猫 | zhimao | 普通话女声 | 直播 | 中文 | 8k/16k | 是 | 否 | 标准版 |
知媛 | zhiyuan | 普通话女声 | 通用场景 | 中文 | 8k/16k | 是 | 否 | 标准版 |
知雅 | zhiya | 普通话女声 | 客服 | 中文 | 8k/16k | 是 | 否 | 标准版 |
知悦 | zhiyue | 普通话女声 | 通用场景 | 中文 | 8k/16k | 是 | 否 | 标准版 |
知达 | zhida | 普通话男声 | 通用场景 | 中文 | 8k/16k | 是 | 否 | 标准版 |
知莎 | zhistella | 普通话女声 | 通用场景 | 中文 | 8k/16k | 是 | 否 | 标准版 |
Kelly | kelly | 香港粤语女声 | 方言场景 | 香港粤语 | 8k/16k | 是 | 否 | 标准版 |
clara | clara | 法语女声 | 通用场景 | 法语 | 8k/16k | 否 | 否 | 标准版 |
hanna | hanna | 德语女声 | 通用场景 | 德语 | 8k/16k | 否 | 否 | 标准版 |
waan | waan | 泰语女声 | 通用场景 | 泰语 | 8k/16k | 否 | 否 | 标准版 |
betty | betty | 美式英文女声 | 通用场景 | 美式英文 | 8k/16k | 是 | 否 | 标准版 |
beth | beth | 美式英文女声 | 通用场景 | 美式英文 | 8k/16k | 是 | 否 | 标准版 |
cindy | cindy | 美式英文女声 | 通用场景 | 美式英文 | 8k/16k | 是 | 否 | 标准版 |
donna | donna | 美式英文女声 | 通用场景 | 美式英文 | 8k/16k | 是 | 否 | 标准版 |
eva | eva | 美式英文女声 | 通用场景 | 美式英文 | 8k/16k | 是 | 否 | 标准版 |
brian | brian | 美式英文男声 | 通用场景 | 美式英文 | 8k/16k | 是 | 否 | 标准版 |