流式文本语音合成可以将流式文本合成为语音二进制数据,并实时地、流式地返回结果。终端用户可以听到接近同步的语音输出,从而极大地提升交互体验,减少了等待时间。一个典型适用的场景是,将大规模语言模型(LLM)返回的流式文本,无需做任何处理(如拼接、整合等),直接送入流式文本语音合成服务,并得到实时音频流。
计费和并发限制
功能介绍
支持输出PCM、WAV和MP3编码格式的数据。
支持流式发送文本。在同一会话中,可以分批次发送文本并接收音频。所合成的音频能够实时播放,且具有低延迟的特点。此外,每次发送的文本不需要构成完整的单词或句子,服务端将根据语义进行恰当的断句和重组。
如果您希望实时播放音频,请使用支持流式播放的音频播放器。支持流式播放的播放器包括:ffmpeg、pyaudio(Python)、AudioFormat(Java)和MediaSource(JavaScript)等。
在同一个流式TTS会话中,单次合成不超过1万字符,总计不超过20万字符,其中1个汉字算作2个字符,1个英文字母、1个标点或1个句子中间空格均算作1个字符。
支持采用UTF-8编码的文本输入。
支持设置语速、语调和音量。
支持设置不同的发音人。
仅支持在调用startStreamInputTts函数前配置语速、语调、音量和声音风格。
不支持时间戳功能。
不支持SSML标记。
支持Latex数学表达式。
音色列表
更多合成效果可至语音合成产品详情页进行体验。该详情页仅提供大部分音色试听,若详情页没有您想要的音色试听,请通过接口文档进行调用试听。
名称 | 音色名称 (voice参数值) | 类型 | 场景 | 支持语言 | 支持采样率 | 支持时间戳功能 | 支持SSML |
龙臣 | longchen | 译制片男声 | 译制片 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙熊 | longxiong | 译制片男声 | 译制片 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙玉 | longyu | 御姐女声 | 对话闲聊、新闻播报、有声读物、车载导航 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙娇 | longjiao | 御姐女声 | 对话闲聊、新闻播报、有声读物、车载导航 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙玫 | longmei | 温柔女声 | 对话闲聊、新闻播报、有声读物、车载导航 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙瑰 | longgui | 温柔女声 | 对话闲聊、新闻播报、有声读物、车载导航 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙乒 | longping | 体育解说男声 | 体育赛事解说 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙乓 | longpang | 体育解说男声 | 体育赛事解说 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙无 | longwu | 无厘头男声 | 对话闲聊、新闻播报、有声读物、车载导航 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙奇 | longqi | 活泼童声 | 对话闲聊、新闻播报、有声读物、车载导航 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙仙 | longxian_normal | 阳光女声 | 对话闲聊、新闻播报、有声读物、车载导航 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙菲 | longfeifei | 成熟女声 | 对话闲聊、新闻播报、有声读物、车载导航 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙修 | longxiu | 青年男声 | 对话闲聊、新闻播报、有声读物、车载导航 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙大锤 | longdachui | 幽默男声 | 对话闲聊、新闻播报、有声读物、车载导航 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙佳佳 | longjiajia | 亲和女声 | 对话闲聊、新闻播报、有声读物、车载导航 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙嘉怡 | longjiayi | 粤语女声 | 对话闲聊、新闻播报、有声读物、车载导航 | 粤语及粤英混合 | 8k/16k/24k | 否 | 否 |
龙桃 | longtao | 粤语女声 | 对话闲聊、新闻播报、有声读物、车载导航 | 粤语及粤英混合 | 8k/16k/24k | 否 | 否 |
龙嘉欣 | longjiaxin | 粤语女声 | 对话闲聊、新闻播报、有声读物、车载导航 | 粤语及粤英混合 | 8k/16k/24k | 否 | 否 |
龙橙 | longcheng | 阳光男声 | 智能客服、新闻播报、对话闲聊、有声读物 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙哲 | longzhe | 成熟男声 | 对话闲聊、新闻播报、有声读物、车载导航 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙楠 | longnan | 青年男声 | 新闻播报、车载导航 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙颜 | longyan | 亲切女声 | 智能客服、对话闲聊、有声读物、车载导航 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙嫱 | longqiang | 慵懒女声 | 对话闲聊、有声读物 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙华 | longhua | 活泼女童 | 智能客服、新闻播报、对话闲聊、有声读物 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙星 | longxing | 暖心女声 | 智能客服、对话闲聊 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙津 | longjin | 青年男声 | 智能客服、新闻播报、对话闲聊、有声读物 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙寒 | longhan | 青年男声 | 智能客服、新闻播报、对话闲聊、有声读物 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙天 | longtian | 霸总男声 | 对话闲聊、有声读物 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙硕 | longshuo | 沉稳男声 | 智能客服、新闻播报、有声读物、 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
Stella2.0 | loongstella | 飒爽女声 | 智能客服、新闻播报、对话闲聊、有声读物、车载导航 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙小诚 | longxiaocheng | 气质大叔 | 智能客服、新闻播报、对话闲聊、有声读物、车载导航 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙小夏 | longxiaoxia | 温柔女声 | 智能客服、新闻播报、对话闲聊、有声读物、车载导航 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙小淳 | longxiaochun | 温柔姐姐 | 智能客服、新闻播报、对话闲聊、有声读物、车载导航 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙小白 | longxiaobai | 闲聊女声 | 新闻播报、对话闲聊、有声读物 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙老铁 | longlaotie | 东北男声 | 对话闲聊、有声读物、车载导航 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙悦 | longyue | 评书女声 | 智能客服、新闻播报、有声读物、 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
Bella2.0 | loongbella | 新闻女声 | 智能客服、新闻播报、对话闲聊、有声读物、车载导航 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙书 | longshu | 新闻男声 | 新闻播报、有声读物 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙婧 | longjing | 严肃女声 | 新闻播报、有声读物 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙妙 | longmiao | 气质女声 | 智能客服、新闻播报、对话闲聊、有声读物、车载导航 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙老李 | libai | 普通话男声 | 诗词朗诵、散文、有声读物 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙婉 | longwan | 普通话女声 | 智能客服、新闻播报、对话闲聊、有声读物 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙可 | longke | 活泼女童 | 智能客服、对话闲聊、有声读物 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙铃 | longling | 活泼女童 | 智能客服、对话闲聊、有声读物 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙绍 | longshao | 活力男声 | 智能客服、新闻播报、对话闲聊、有声读物 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙泽 | longze | 阳光男声 | 智能客服、新闻播报、对话闲聊、有声读物 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
龙浩 | longhao | 温暖男声 | 智能客服、新闻播报、对话闲聊、有声读物 | 中文及中英文混合 | 8k/16k/24k | 否 | 否 |
服务地址
访问类型 | 说明 | URL |
外网访问 | 所有服务器均可使用外网访问URL(SDK中默认设置了外网访问URL)。 | 北京: |
ECS内网访问 | 使用阿里云北京ECS(即ECS地域为华北2(北京)),可使用内网访问URL。 ECS的经典网络不能访问AnyTunnel,即不能在内网访问语音服务;如果希望使用AnyTunnel,需要创建专有网络在其内部访问。 说明 使用内网访问方式,将不产生ECS实例的公网流量费用。 关于ECS的网络类型请参见网络类型。 | 北京: |
交互流程
鉴权
客户端在与服务端建立WebSocket连接时,使用Token进行鉴权。关于Token获取请参见获取Token概述。
开始合成
客户端发起语音合成请求,在请求消息中进行参数设置,各参数通过SDK中StreamInputTts对象的set方法设置,含义如下。
参数
类型
是否必选
说明
appkey
String
是
管控台创建的项目Appkey。获取Appkey请前往控制台。
voice
String
是
说话人音色。
format
枚举类型/String
否
音频编码格式,在OutputFormatEnum中的枚举类型:
.opus
、.pcm
、.wav
和.mp3
,默认为.pcm
。sample_rate
枚举类型/Integer
否
音频采样率,默认为16000 Hz,在SampleRateEnum中的枚举类型:SAMPLE_RATE_8K, SAMPLE_RATE_16K, SAMPLE_RATE_24K, SAMPLE_RATE_48K。
volume
Integer
否
朗读音量,范围是0~100,默认50。
speech_rate
Integer
否
朗读语速,范围是-500~500,默认是0。
pitch_rate
Integer
否
朗读语调,范围是-500~500,默认是0。
bit_rate
Integer
否
指定音频的码率,仅对OPUS编码生效。取值范围:6~510kbps。默认是32。
usage
object
否
计量信息,表示本次请求所消耗的字符数据
(1个汉字算作2个字符;1个英文字母、1个标点或1个句子中间空格均算作1个字符。)
接收合成数据
服务端返回合成的语音二进制数据,SDK接收并处理二进制数据。
结束合成
语音合成完毕,服务端发送合成完毕事件通知,举例如下。
{ "header": { "message_id": "05450bf69c53413f8d88aed1ee60****", "task_id": "640bc797bb684bd6960185651307****", "namespace": "FlowingSpeechSynthesizer", "name": "SynthesisCompleted", "status": 20000000, "status_message": "GATEWAY|SUCCESS|Success." } }