接口说明

流式文本语音合成可以将流式文本合成为语音二进制数据,并实时地、流式地返回结果。终端用户可以听到接近同步的语音输出,从而极大地提升交互体验,减少了等待时间。一个典型适用的场景是,将大规模语言模型(LLM)返回的流式文本,无需做任何处理(如拼接、整合等),直接送入流式文本语音合成服务,并得到实时音频流。

计费和并发限制

功能介绍

  • 支持输出PCM、WAVMP3编码格式的数据。

  • 支持流式发送文本。在同一会话中,可以分批次发送文本并接收音频。所合成的音频能够实时播放,且具有低延迟的特点。此外,每次发送的文本不需要构成完整的单词或句子,服务端将根据语义进行恰当的断句和重组。

    如果您希望实时播放音频,请使用支持流式播放的音频播放器。支持流式播放的播放器包括:ffmpeg、pyaudio(Python)、AudioFormat(Java)和MediaSource(JavaScript)等。

  • 在同一个流式TTS会话中,单次合成不超过1万字符,总计不超过20万字符,其中1个汉字算作2个字符,1个英文字母、1个标点或1个句子中间空格均算作1个字符。

  • 支持采用UTF-8编码的文本输入。

  • 支持设置语速、语调和音量。

  • 支持设置不同的发音人。

  • 仅支持在调用startStreamInputTts函数前配置语速、语调、音量和声音风格。

  • 不支持时间戳功能。

  • 不支持SSML标记。

  • 支持Latex数学表达式。

音色列表

说明

更多合成效果可至语音合成产品详情页进行体验。该详情页仅提供大部分音色试听,若详情页没有您想要的音色试听,请通过接口文档进行调用试听。

名称

音色名称

(voice参数值)

类型

场景

支持语言

支持采样率

支持时间戳功能

支持SSML

龙臣

longchen

译制片男声

译制片

中文及中英文混合

8k/16k/24k

龙熊

longxiong

译制片男声

译制片

中文及中英文混合

8k/16k/24k

龙玉

longyu

御姐女声

对话闲聊、新闻播报、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙娇

longjiao

御姐女声

对话闲聊、新闻播报、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙玫

longmei

温柔女声

对话闲聊、新闻播报、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙瑰

longgui

温柔女声

对话闲聊、新闻播报、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙乒

longping

体育解说男声

体育赛事解说

中文及中英文混合

8k/16k/24k

龙乓

longpang

体育解说男声

体育赛事解说

中文及中英文混合

8k/16k/24k

龙无

longwu

无厘头男声

对话闲聊、新闻播报、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙奇

longqi

活泼童声

对话闲聊、新闻播报、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙仙

longxian_normal

阳光女声

对话闲聊、新闻播报、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙菲

longfeifei

成熟女声

对话闲聊、新闻播报、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙修

longxiu

青年男声

对话闲聊、新闻播报、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙大锤

longdachui

幽默男声

对话闲聊、新闻播报、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙佳佳

longjiajia

亲和女声

对话闲聊、新闻播报、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙嘉怡

longjiayi

粤语女声

对话闲聊、新闻播报、有声读物、车载导航

粤语及粤英混合

8k/16k/24k

龙桃

longtao

粤语女声

对话闲聊、新闻播报、有声读物、车载导航

粤语及粤英混合

8k/16k/24k

龙嘉欣

longjiaxin

粤语女声

对话闲聊、新闻播报、有声读物、车载导航

粤语及粤英混合

8k/16k/24k

龙橙

longcheng

阳光男声

智能客服、新闻播报、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙哲

longzhe

成熟男声

对话闲聊、新闻播报、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙楠

longnan

青年男声

新闻播报、车载导航

中文及中英文混合

8k/16k/24k

龙颜

longyan

亲切女声

智能客服、对话闲聊、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙嫱

longqiang

慵懒女声

对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙华

longhua

活泼女童

智能客服、新闻播报、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙星

longxing

暖心女声

智能客服、对话闲聊

中文及中英文混合

8k/16k/24k

龙津

longjin

青年男声

智能客服、新闻播报、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙寒

longhan

青年男声

智能客服、新闻播报、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙天

longtian

霸总男声

对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙硕

longshuo

沉稳男声

智能客服、新闻播报、有声读物、

中文及中英文混合

8k/16k/24k

Stella2.0

loongstella

飒爽女声

智能客服、新闻播报、对话闲聊、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙小诚

longxiaocheng

气质大叔

智能客服、新闻播报、对话闲聊、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙小夏

longxiaoxia

温柔女声

智能客服、新闻播报、对话闲聊、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙小淳

longxiaochun

温柔姐姐

智能客服、新闻播报、对话闲聊、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙小白

longxiaobai

闲聊女声

新闻播报、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙老铁

longlaotie

东北男声

对话闲聊、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙悦

longyue

评书女声

智能客服、新闻播报、有声读物、

中文及中英文混合

8k/16k/24k

Bella2.0

loongbella

新闻女声

智能客服、新闻播报、对话闲聊、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙书

longshu

新闻男声

新闻播报、有声读物

中文及中英文混合

8k/16k/24k

龙婧

longjing

严肃女声

新闻播报、有声读物

中文及中英文混合

8k/16k/24k

龙妙

longmiao

气质女声

智能客服、新闻播报、对话闲聊、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙老李

libai

普通话男声

诗词朗诵、散文、有声读物

中文及中英文混合

8k/16k/24k

龙婉

longwan

普通话女声

智能客服、新闻播报、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙可

longke

活泼女童

智能客服、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙铃

longling

活泼女童

智能客服、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙绍

longshao

活力男声

智能客服、新闻播报、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙泽

longze

阳光男声

智能客服、新闻播报、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙浩

longhao

温暖男声

智能客服、新闻播报、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

服务地址

访问类型

说明

URL

外网访问

所有服务器均可使用外网访问URL(SDK中默认设置了外网访问URL)。

北京:wss://nls-gateway-cn-beijing.aliyuncs.com/ws/v1

ECS内网访问

使用阿里云北京ECS(即ECS地域为华北2(北京)),可使用内网访问URL。 ECS的经典网络不能访问AnyTunnel,即不能在内网访问语音服务;如果希望使用AnyTunnel,需要创建专有网络在其内部访问。

说明

使用内网访问方式,将不产生ECS实例的公网流量费用。

关于ECS的网络类型请参见网络类型

北京:ws://nls-gateway-cn-beijing-internal.aliyuncs.com:80/ws/v1

交互流程

image
  1. 鉴权

    客户端在与服务端建立WebSocket连接时,使用Token进行鉴权。关于Token获取请参见获取Token概述

  2. 开始合成

    客户端发起语音合成请求,在请求消息中进行参数设置,各参数通过SDKStreamInputTts对象的set方法设置,含义如下。

    参数

    类型

    是否必选

    说明

    appkey

    String

    管控台创建的项目Appkey。获取Appkey请前往控制台

    voice

    String

    说话人音色。

    format

    枚举类型/String

    音频编码格式,在OutputFormatEnum中的枚举类型:.opus.pcm.wav.mp3,默认为.pcm

    sample_rate

    枚举类型/Integer

    音频采样率,默认为16000 Hz,在SampleRateEnum中的枚举类型:SAMPLE_RATE_8K, SAMPLE_RATE_16K, SAMPLE_RATE_24K, SAMPLE_RATE_48K。

    volume

    Integer

    朗读音量,范围是0~100,默认50。

    speech_rate

    Integer

    朗读语速,范围是-500~500,默认是0。

    pitch_rate

    Integer

    朗读语调,范围是-500~500,默认是0。

    bit_rate

    Integer

    指定音频的码率,仅对OPUS编码生效。取值范围:6~510kbps。默认是32。

    usage

    object

    计量信息,表示本次请求所消耗的字符数据

    (1个汉字算作2个字符;1个英文字母、1个标点或1个句子中间空格均算作1个字符。)

  3. 接收合成数据

    服务端返回合成的语音二进制数据,SDK接收并处理二进制数据。

  4. 结束合成

    语音合成完毕,服务端发送合成完毕事件通知,举例如下。

    {
        "header": {
            "message_id": "05450bf69c53413f8d88aed1ee60****",
            "task_id": "640bc797bb684bd6960185651307****",
            "namespace": "FlowingSpeechSynthesizer",
            "name": "SynthesisCompleted",
            "status": 20000000,
            "status_message": "GATEWAY|SUCCESS|Success."
        }
    }