流式文本语音合成功能可以将您输入的文本合成为语音二进制数据,相比于非流式语音合成,流式合成的优势在于实时性更强,用户在输入文本的同时就可以听到接近同步的语音输出,极大地提升了交互体验,减少了用户等待时间。适用于大规模语言模型的逐字输入型、流式文本入参形式的场景。
功能介绍
支持输出PCM、WAV和MP3编码格式的数据。
支持设置语速、语调和音量。
支持设置不同场景及风格的声音。
仅支持在输入流开启前配置语速、语调、音量和声音风格。
在同一个会话中可以分段多次发送文本并获得音频,合成的音频可以实时播放并且具有低延迟的特点。
在同一个流式TTS会话中,单次合成不超过1万字,总计不超过10万字,其中1个汉字、1个英文字母、1个标点或1个句子中间空格均算作1个字符。
仅支持采用UTF-8编码的文本输入。
不支持SSML标记。
声音类型
名称 | voice参数值 | 类型 | 适用场景 | 支持语言 | 支持采样率(Hz) | 支持字/句级别时间戳 | 支持儿化音 | 声音品质 |
阿斌 | abin | 广东普通话 | 对话数字人 | 支持中文及中英文混合场景 | 8K/16K/24K/48K | 否 | 否 | 标准版 |
知小白 | zhixiaobai | 普通话女声 | 对话数字人 | 支持中文及中英文混合场景 | 8K/16K/24K/48K | 否 | 是 | 标准版 |
知小夏 | zhixiaoxia | 普通话女声 | 对话数字人 | 支持中文及中英文混合场景 | 8K/16K/24K/48K | 否 | 是 | 标准版 |
知小妹 | zhixiaomei | 普通话女声 | 直播数字人 | 支持中文及中英文混合场景 | 8K/16K/24K | 是 | 是 | 标准版 |
知柜 | zhigui | 普通话女声 | 直播数字人 | 支持中文及中英文混合场景 | 8K/16K | 是 | 是 | 标准版 |
知硕 | zhishuo | 普通话男声 | 客服数字人 | 支持中文及中英文混合场景 | 8K/16K | 是 | 是 | 标准版 |
艾夏 | aixia | 普通话女声 | 客服数字人 | 支持中文及中英文混合场景 | 8K/16K | 是 | 是 | 标准版 |
Cally | cally | 美式英文女声 | 英语口语对话数字人 | 仅支持纯英文场景 | 8K/16K | 是 | 是 | 标准版 |
知锋_多情感 | zhifeng_emo | 多种情感男声 | 通用场景 | 中文及中英文混合场景 | 8K/16K/24K | 是 | 是 | 标准版 |
知冰_多情感 | zhibing_emo | 多种情感男声 | 通用场景 | 中文及中英文混合场景 | 8K/16K/24K | 是 | 是 | 标准版 |
知妙_多情感 | zhimiao_emo | 多种情感女声 | 中英场景 | 中文及英文场景 | 8K/16K | 是 | 是 | 标准版 |
知米_多情感 | zhimi_emo | 多种情感女声 | 通用场景 | 中文及中英文混合场景 | 8K/16K | 是 | 否 | 标准版 |
知燕_多情感 | zhiyan_emo | 多种情感女声 | 通用场景 | 中文及中英文混合场景 | 8K/16K | 是 | 否 | 标准版 |
知贝_多情感 | zhibei_emo | 多种情感童声 | 通用场景 | 中文及中英文混合场景 | 8K/16K | 是 | 否 | 标准版 |
知甜_多情感 | zhitian_emo | 多种情感女声 | 通用场景 | 中文及中英文混合场景 | 8K/16K | 是 | 否 | 标准版 |
小云 | xiaoyun | 标准女声 | 通用场景 | 中文及中英文混合场景 | 8K/16K | 否 | 否 | lite版 |
小刚 | xiaogang | 标准男声 | 通用场景 | 中文及中英文混合场景 | 8K/16K | 否 | 否 | lite版 |
若兮 | ruoxi | 温柔女声 | 通用场景 | 中文及中英文混合场景 | 8K/16K/24K | 否 | 否 | 标准版 |
思琪 | siqi | 温柔女声 | 通用场景 | 中文及中英文混合场景 | 8K/16K/24K | 否 | 否 | 标准版 |
思佳 | sijia | 标准女声 | 通用场景 | 中文及中英文混合场景 | 8K/16K/24K | 否 | 否 | 标准版 |
思诚 | sicheng | 标准男声 | 通用场景 | 中文及中英文混合场景 | 8K/16K/24K | 否 | 否 | 标准版 |
艾琪 | aiqi | 温柔女声 | 通用场景 | 中文及中英文混合场景 | 8K/16K | 否 | 否 | 标准版 |
艾佳 | aijia | 标准女声 | 通用场景 | 中文及中英文混合场景 | 8K/16K | 否 | 否 | 标准版 |
艾诚 | aicheng | 标准男声 | 通用场景 | 中文及中英文混合场景 | 8K/16K | 否 | 否 | 标准版 |
艾达 | aida | 标准男声 | 通用场景 | 中文及中英文混合场景 | 8K/16K | 否 | 否 | 标准版 |
宁儿 | ninger | 标准女声 | 通用场景 | 纯中文场景 | 8K/16K/24K | 否 | 否 | 标准版 |
瑞琳 | ruilin | 标准女声 | 通用场景 | 纯中文场景 | 8K/16K/24K | 否 | 否 | 标准版 |
思悦 | siyue | 温柔女声 | 客服场景 | 中文及中英文混合场景 | 8K/16K/24K | 否 | 否 | 标准版 |
艾雅 | aiya | 严厉女声 | 客服场景 | 中文及中英文混合场景 | 8K/16K | 否 | 否 | 标准版 |
艾美 | aimei | 甜美女声 | 客服场景 | 中文及中英文混合场景 | 8K/16K | 否 | 否 | 标准版 |
艾雨 | aiyu | 自然女声 | 客服场景 | 中文及中英文混合场景 | 8K/16K | 否 | 否 | 标准版 |
艾悦 | aiyue | 温柔女声 | 客服场景 | 中文及中英文混合场景 | 8K/16K | 否 | 否 | 标准版 |
艾婧 | aijing | 严厉女声 | 客服场景 | 中文及中英文混合场景 | 8K/16K | 否 | 否 | 标准版 |
小美 | xiaomei | 甜美女声 | 客服场景 | 中文及中英文混合场景 | 8K/16K/24K | 否 | 否 | 标准版 |
艾娜 | aina | 浙普女声 | 客服场景 | 纯中文场景 | 8K/16K | 否 | 否 | 标准版 |
伊娜 | yina | 浙普女声 | 客服场景 | 纯中文场景 | 8K/16K/24K | 否 | 否 | 标准版 |
思婧 | sijing | 严厉女声 | 客服场景 | 纯中文场景 | 8K/16K/24K | 否 | 否 | 标准版 |
思彤 | sitong | 儿童音 | 童声场景 | 纯中文场景 | 8K/16K/24K | 否 | 否 | 标准版 |
小北 | xiaobei | 萝莉女声 | 童声场景 | 纯中文场景 | 8K/16K/24K | 否 | 否 | 标准版 |
艾彤 | aitong | 儿童音 | 童声场景 | 纯中文场景 | 8K/16K | 否 | 否 | 标准版 |
艾薇 | aiwei | 萝莉女声 | 童声场景 | 纯中文场景 | 8K/16K | 否 | 否 | 标准版 |
艾宝 | aibao | 萝莉女声 | 童声场景 | 纯中文场景 | 8K/16K | 否 | 否 | 标准版 |
Harry | harry | 英音男声 | 英文场景 | 英文场景 | 8K/16K | 否 | 否 | 标准版 |
Abby | abby | 美音女声 | 英文场景 | 英文场景 | 8K/16K | 否 | 否 | 标准版 |
Andy | andy | 美音男声 | 英文场景 | 英文场景 | 8K/16K | 否 | 否 | 标准版 |
Eric | eric | 英音男声 | 英文场景 | 英文场景 | 8K/16K | 否 | 否 | 标准版 |
Emily | emily | 英音女声 | 英文场景 | 英文场景 | 8K/16K | 否 | 否 | 标准版 |
Luna | luna | 英音女声 | 英文场景 | 英文场景 | 8K/16K | 否 | 否 | 标准版 |
Luca | luca | 英音男声 | 英文场景 | 英文场景 | 8K/16K | 否 | 否 | 标准版 |
Wendy | wendy | 英音女声 | 英文场景 | 英文场景 | 8K/16K/24K | 否 | 否 | 标准版 |
William | william | 英音男声 | 英文场景 | 英文场景 | 8K/16K/24K | 否 | 否 | 标准版 |
Olivia | olivia | 英音女声 | 英文场景 | 英文场景 | 8K/16K/24K | 否 | 否 | 标准版 |
姗姗 | shanshan | 粤语女声 | 方言场景 | 标准粤文(简体)及粤英文混合场景 | 8K/16K/24K | 否 | 否 | 标准版 |
艾媛 | aiyuan | 知心姐姐 | 文学场景 | 中文及中英文混合场景 | 8K/16K | 否 | 是 | 精品版 |
艾颖 | aiying | 软萌童声 | 文学场景 | 中文及中英文混合场景 | 8K/16K | 否 | 是 | 精品版 |
艾祥 | aixiang | 磁性男声 | 文学场景 | 中文及中英文混合场景 | 8K/16K | 否 | 是 | 精品版 |
艾墨 | aimo | 情感男声 | 文学场景 | 中文及中英文混合场景 | 8K/16K | 否 | 是 | 精品版 |
艾晔 | aiye | 青年男声 | 文学场景 | 中文及中英文混合场景 | 8K/16K | 否 | 是 | 精品版 |
艾婷 | aiting | 电台女声 | 文学场景 | 中文及中英文混合场景 | 8K/16K | 否 | 是 | 精品版 |
艾凡 | aifan | 情感女声 | 文学场景 | 中文及中英文混合场景 | 8K/16K | 否 | 是 | 精品版 |
Lydia | lydia | 英中双语女声 | 英文场景 | 英文及英中文混合场景 | 8K/16K | 否 | 否 | 标准版 |
小玥 | chuangirl | 四川话女声 | 方言场景 | 中文及中英文混合场景 | 8K/16K | 否 | 否 | 标准版 |
艾硕 | aishuo | 自然男声 | 客服场景 | 中文及中英文混合场景 | 8K/16K | 否 | 否 | 标准版 |
艾德 | aide | 新闻男声 | 文学场景 | 中文及中英文混合场景 | 8K/16K | 否 | 是 | 精品版 |
青青 | qingqing | 中国台湾话女声 | 方言场景 | 纯中文场景 | 8K/16K | 否 | 否 | 标准版 |
翠姐 | cuijie | 东北话女声 | 方言场景 | 纯中文场景 | 8K/16K | 否 | 是 | 标准版 |
小泽 | xiaoze | 湖南重口音男声 | 方言场景 | 纯中文场景 | 8K/16K | 否 | 否 | 标准版 |
艾楠 | ainan | 广告男声 | 文学场景 | 中文及中英文混合场景 | 8K/16K | 否 | 是 | 精品版 |
艾浩 | aihao | 资讯男声 | 文学场景 | 中文及中英文混合场景 | 8K/16K | 否 | 是 | 精品版 |
艾茗 | aiming | 诙谐男声 | 文学场景 | 中文及中英文混合场景 | 8K/16K | 否 | 是 | 精品版 |
艾笑 | aixiao | 资讯女声 | 文学场景 | 中文及中英文混合场景 | 8K/16K | 否 | 是 | 精品版 |
艾厨 | aichu | 舌尖男声 | 文学场景 | 中文及中英文混合场景 | 8K/16K | 否 | 是 | 精品版 |
艾倩 | aiqian | 资讯女声 | 文学场景 | 中文及中英文混合场景 | 8K/16K | 否 | 是 | 精品版 |
智香 | tomoka | 日语女声 | 多语种场景 | 纯日文场景 | 8K/16K | 否 | 否 | 标准版 |
智也 | tomoya | 日语男声 | 多语种场景 | 纯日文场景 | 8K/16K | 否 | 否 | 标准版 |
Annie | annie | 美语女声 | 英文场景 | 纯英文场景 | 8K/16K | 否 | 否 | 标准版 |
艾树 | aishu | 资讯男声 | 文学场景 | 中文及中英文混合场景 | 8K/16K | 否 | 是 | 精品版 |
艾茹 | airu | 新闻女声 | 文学场景 | 中文及中英文混合场景 | 8K/16K | 否 | 是 | 精品版 |
佳佳 | jiajia | 粤语女声 | 方言场景 | 标准粤文(简体)及粤英文混合场景 | 8K/16K | 否 | 否 | 标准版 |
Indah | indah | 印尼语女声 | 多语种场景 | 纯印尼语场景 | 8K/16K | 否 | 否 | 标准版 |
桃子 | taozi | 粤语女声 | 方言场景 | 支持标准粤文(简体)及粤英文混合场景 | 8K/16K | 否 | 否 | 标准版 |
柜姐 | guijie | 亲切女声 | 通用场景 | 支持中文及中英文混合场景 | 8K/16K | 否 | 是 | 标准版 |
Stella | stella | 知性女声 | 通用场景 | 支持中文及中英文混合场景 | 8K/16K | 否 | 是 | 标准版 |
Stanley | stanley | 沉稳男声 | 通用场景 | 支持中文及中英文混合场景 | 8K/16K | 否 | 是 | 标准版 |
Kenny | kenny | 沉稳男声 | 通用场景 | 支持中文及中英文混合场景 | 8K/16K | 否 | 是 | 标准版 |
Rosa | rosa | 自然女声 | 通用场景 | 支持中文及中英文混合场景 | 8K/16K | 否 | 是 | 标准版 |
Farah | farah | 马来语女声 | 多语种场景 | 仅支持纯马来语场景 | 8K/16K | 否 | 否 | 标准版 |
马树 | mashu | 儿童剧男声 | 通用场景 | 通用场景 | 8K/16K | 否 | 否 | 标准版 |
知琪 | zhiqi | 温柔女声 | 超高清场景 | 支持中文及中英文混合场景 | 8K/16K/24K/48K | 否 | 否 | 精品版 |
知厨 | zhichu | 舌尖男声 | 超高清场景 | 支持中文及中英文混合场景 | 8K/16K/24K/48K | 否 | 是 | 精品版 |
小仙 | xiaoxian | 亲切女声 | 直播场景 | 支持中文及中英文混合场景 | 8K/16K | 否 | 是 | 标准版 |
悦儿 | yuer | 儿童剧女声 | 通用场景 | 仅支持纯中文场景 | 8K/16K | 否 | 否 | 标准版 |
猫小美 | maoxiaomei | 活力女声 | 直播场景 | 支持中文及中英文混合场景 | 8K/16K | 否 | 是 | 标准版 |
知祥 | zhixiang | 磁性男声 | 超高清场景 | 支持中文及中英文混合场景 | 8K/16K/24K/48K | 否 | 否 | 精品版 |
知佳 | zhijia | 标准女声 | 超高清场景 | 支持中文及中英文混合场景 | 8K/16K/24K/48K | 否 | 否 | 精品版 |
知楠 | zhinan | 广告男声 | 超高清场景 | 支持中文及中英文混合场景 | 8K/16K/24K/48K | 否 | 否 | 精品版 |
知倩 | zhiqian | 资讯女声 | 超高清场景 | 支持中文及中英文混合场景 | 8K/16K/24K/48K | 否 | 否 | 精品版 |
知茹 | zhiru | 新闻女声 | 超高清场景 | 支持中文及中英文混合场景 | 8K/16K/24K/48K | 否 | 否 | 精品版 |
知德 | zhide | 新闻男声 | 超高清场景 | 支持中文及中英文混合场景 | 8K/16K/24K/48K | 否 | 否 | 精品版 |
知飞 | zhifei | 激昂解说 | 超高清场景 | 支持中文及中英文混合场景 | 8K/16K | 否 | 否 | 精品版 |
艾飞 | aifei | 激昂解说 | 直播场景 | 支持中文及中英文混合场景 | 8K/16K | 否 | 是 | 标准版 |
亚群 | yaqun | 卖场广播 | 直播场景 | 支持中文及中英文混合场景 | 8K/16K | 否 | 是 | 标准版 |
巧薇 | qiaowei | 卖场广播 | 直播场景 | 支持中文及中英文混合场景 | 8K/16K | 否 | 是 | 标准版 |
大虎 | dahu | 东北话男声 | 方言场景 | 支持中文及中英文混合场景 | 8K/16K | 否 | 是 | 标准版 |
ava | ava | 美语女生 | 英文场景 | 仅支持纯英文场景 | 8K/16K | 否 | 否 | 标准版 |
知伦 | zhilun | 悬疑解说 | 超高清场景 | 支持中文及中英文混合场景 | 8K/16K | 否 | 否 | 精品版 |
艾伦 | ailun | 悬疑解说 | 直播场景 | 支持中文及中英文混合场景 | 8K/16K | 否 | 是 | 标准版 |
杰力豆 | jielidou | 治愈童声 | 童声场景 | 仅支持纯中文场景 | 8K/16K | 否 | 是 | 标准版 |
知薇 | zhiwei | 萝莉女声 | 超高清场景 | 仅支持纯中文场景 | 8K/16K/24K/48K | 否 | 否 | 精品版 |
老铁 | laotie | 东北老铁 | 直播场景 | 仅支持纯中文场景 | 8K/16K | 否 | 是 | 标准版 |
老妹 | laomei | 吆喝女声 | 直播场景 | 仅支持纯中文场景 | 8K/16K | 否 | 是 | 标准版 |
艾侃 | aikan | 天津话男声 | 方言场景 | 仅支持纯中文场景 | 8K/16K | 否 | 是 | 标准版 |
Tala | tala | 菲律宾语女声 | 多语种场景 | 仅支持菲律宾语场景 | 8K/16K | 否 | 否 | 标准版 |
Tien | tien | 越南语女声 | 多语种场景 | 仅支持越南语场景 | 8K/16K | 否 | 否 | 标准版 |
Becca | becca | 美语客服女声 | 美式英文 | 仅支持纯英语场景 | 8K/16K | 否 | 否 | 标准版 |
Kyong | Kyong | 韩语女声 | 韩语场景 | 韩语 | 8K/16K | 否 | 否 | 标准版 |
masha | masha | 俄语女声 | 俄语场景 | 俄语 | 8K/16K | 否 | 否 | 标准版 |
camila | camila | 西班牙语女声 | 西班牙语场景 | 西班牙语 | 8k/16k | 否 | 否 | 标准版 |
perla | perla | 意大利语女声 | 意大利语场景 | 意大利语 | 8k/16k | 否 | 否 | 标准版 |
知猫 | zhimao | 普通话女声 | 直播 | 中文 | 8k/16k | 是 | 否 | 标准版 |
知媛 | zhiyuan | 普通话女声 | 通用场景 | 中文 | 8k/16k | 是 | 否 | 标准版 |
知雅 | zhiya | 普通话女声 | 客服 | 中文 | 8k/16k | 是 | 否 | 标准版 |
知悦 | zhiyue | 普通话女声 | 通用场景 | 中文 | 8k/16k | 是 | 否 | 标准版 |
知达 | zhida | 普通话男声 | 通用场景 | 中文 | 8k/16k | 是 | 否 | 标准版 |
知莎 | zhistella | 普通话女声 | 通用场景 | 中文 | 8k/16k | 是 | 否 | 标准版 |
Kelly | kelly | 香港粤语女声 | 方言场景 | 香港粤语 | 8k/16k | 是 | 否 | 标准版 |
clara | clara | 法语女声 | 通用场景 | 法语 | 8k/16k | 否 | 否 | 标准版 |
hanna | hanna | 德语女声 | 通用场景 | 德语 | 8k/16k | 否 | 否 | 标准版 |
waan | waan | 泰语女声 | 通用场景 | 泰语 | 8k/16k | 否 | 否 | 标准版 |
betty | betty | 美式英文女声 | 通用场景 | 美式英文 | 8k/16k | 是 | 否 | 标准版 |
beth | beth | 美式英文女声 | 通用场景 | 美式英文 | 8k/16k | 是 | 否 | 标准版 |
cindy | cindy | 美式英文女声 | 通用场景 | 美式英文 | 8k/16k | 是 | 否 | 标准版 |
donna | donna | 美式英文女声 | 通用场景 | 美式英文 | 8k/16k | 是 | 否 | 标准版 |
eva | eva | 美式英文女声 | 通用场景 | 美式英文 | 8k/16k | 是 | 否 | 标准版 |
brian | brian | 美式英文男声 | 通用场景 | 美式英文 | 8k/16k | 是 | 否 | 标准版 |
就近地域智能接入
流式文本语音合成支持就近地域智能接入,域名为nls-gateway.aliyuncs.com
。
推荐终端用户使用就近地域接入。根据调用接口时客户端所在的地理位置,系统会自动解析到最近的某个具体地域的服务器。例如在北京地域发起请求,系统会自动解析到北京地域的服务器,与指定域名nls-gateway-cn-beijing.aliyuncs.com
的实现效果一致。
服务地址
访问类型 | 说明 | URL |
外网访问 | 所有服务器均可使用外网访问URL(SDK中默认设置了外网访问URL)。 | 北京: |
ECS内网访问 | 使用阿里云北京ECS(即ECS地域为华北2(北京)),可使用内网访问URL。 ECS的经典网络不能访问AnyTunnel,即不能在内网访问语音服务;如果希望使用AnyTunnel,需要创建专有网络在其内部访问。 说明 使用内网访问方式,将不产生ECS实例的公网流量费用。 关于ECS的网络类型请参见网络类型。 | 北京: |
交互流程
鉴权
客户端在与服务端建立WebSocket连接时,使用Token进行鉴权。关于Token获取请参见获取Token概述。
开始合成
客户端发起语音合成请求,在请求消息中进行参数设置,各参数通过SDK中FlowingSpeechSynthesizer对象的set方法设置,含义如下。
参数
类型
是否必选
说明
appkey
String
是
管控台创建的项目Appkey。获取Appkey请前往控制台。
voice
String
是
说话人音色。
format
枚举类型/String
否
音频编码格式,在OutputFormatEnum中的枚举类型:
.pcm
、.wav
和.mp3
,默认为.pcm
。sample_rate
枚举类型/Integer
否
音频采样率,默认为16000 Hz,在SampleRateEnum中的枚举类型:SAMPLE_RATE_8K, SAMPLE_RATE_16K, SAMPLE_RATE_24K, SAMPLE_RATE_48K。
volume
Integer
否
朗读音量,范围是0~100,默认50。
speech_rate
Integer
否
朗读语速,范围是-500~500,默认是0。
pitch_rate
Integer
否
朗读语调,范围是-500~500,默认是0。
enable_subtitle
Boolean
否
开启字级别时间戳。更多使用方法,请参见时间戳功能介绍。
usage
object
否
计量信息,表示本次请求所消耗的字符数据
(1个汉字算作2个字符;1个英文字母、1个标点或1个句子中间空格均算作1个字符。)
接收合成数据
服务端返回合成的语音二进制数据,SDK接收并处理二进制数据。
结束合成
语音合成完毕,服务端发送合成完毕事件通知,举例如下。
{ "header": { "message_id": "05450bf69c53413f8d88aed1ee60****", "task_id": "640bc797bb684bd6960185651307****", "namespace": "FlowingSpeechSynthesizer", "name": "SynthesisCompleted", "status": 20000000, "status_message": "GATEWAY|SUCCESS|Success." } }