接口说明

流式文本语音合成功能可以将您输入的文本合成为语音二进制数据,相比于非流式语音合成,流式合成的优势在于实时性更强,用户在输入文本的同时就可以听到接近同步的语音输出,极大地提升了交互体验,减少了用户等待时间。适用于大规模语言模型的逐字输入型、流式文本入参形式的场景。

功能介绍

  • 支持输出PCM、WAV和MP3编码格式的数据。

  • 支持设置语速、语调和音量。

  • 支持设置不同场景及风格的声音。

  • 仅支持在输入流开启前配置语速、语调、音量和声音风格。

  • 在同一个会话中可以分段多次发送文本并获得音频,合成的音频可以实时播放并且具有低延迟的特点。

  • 在同一个流式TTS会话中,单次合成不超过1万字,总计不超过10万字,其中1个汉字、1个英文字母、1个标点或1个句子中间空格均算作1个字符。

  • 仅支持采用UTF-8编码的文本输入。

  • 不支持SSML标记。

声音类型

名称

voice参数值

类型

适用场景

支持语言

支持采样率(Hz)

支持字/句级别时间戳

支持儿化音

声音品质

阿斌

abin

广东普通话

对话数字人

支持中文及中英文混合场景

8K/16K/24K/48K

标准版

知小白

zhixiaobai

普通话女声

对话数字人

支持中文及中英文混合场景

8K/16K/24K/48K

标准版

知小夏

zhixiaoxia

普通话女声

对话数字人

支持中文及中英文混合场景

8K/16K/24K/48K

标准版

知小妹

zhixiaomei

普通话女声

直播数字人

支持中文及中英文混合场景

8K/16K/24K

标准版

知柜

zhigui

普通话女声

直播数字人

支持中文及中英文混合场景

8K/16K

标准版

知硕

zhishuo

普通话男声

客服数字人

支持中文及中英文混合场景

8K/16K

标准版

艾夏

aixia

普通话女声

客服数字人

支持中文及中英文混合场景

8K/16K

标准版

Cally

cally

美式英文女声

英语口语对话数字人

仅支持纯英文场景

8K/16K

标准版

知锋_多情感

zhifeng_emo

多种情感男声

通用场景

中文及中英文混合场景

8K/16K/24K

标准版

知冰_多情感

zhibing_emo

多种情感男声

通用场景

中文及中英文混合场景

8K/16K/24K

标准版

知妙_多情感

zhimiao_emo

多种情感女声

中英场景

中文及英文场景

8K/16K

标准版

知米_多情感

zhimi_emo

多种情感女声

通用场景

中文及中英文混合场景

8K/16K

标准版

知燕_多情感

zhiyan_emo

多种情感女声

通用场景

中文及中英文混合场景

8K/16K

标准版

知贝_多情感

zhibei_emo

多种情感童声

通用场景

中文及中英文混合场景

8K/16K

标准版

知甜_多情感

zhitian_emo

多种情感女声

通用场景

中文及中英文混合场景

8K/16K

标准版

小云

xiaoyun

标准女声

通用场景

中文及中英文混合场景

8K/16K

lite版

小刚

xiaogang

标准男声

通用场景

中文及中英文混合场景

8K/16K

lite版

若兮

ruoxi

温柔女声

通用场景

中文及中英文混合场景

8K/16K/24K

标准版

思琪

siqi

温柔女声

通用场景

中文及中英文混合场景

8K/16K/24K

标准版

思佳

sijia

标准女声

通用场景

中文及中英文混合场景

8K/16K/24K

标准版

思诚

sicheng

标准男声

通用场景

中文及中英文混合场景

8K/16K/24K

标准版

艾琪

aiqi

温柔女声

通用场景

中文及中英文混合场景

8K/16K

标准版

艾佳

aijia

标准女声

通用场景

中文及中英文混合场景

8K/16K

标准版

艾诚

aicheng

标准男声

通用场景

中文及中英文混合场景

8K/16K

标准版

艾达

aida

标准男声

通用场景

中文及中英文混合场景

8K/16K

标准版

宁儿

ninger

标准女声

通用场景

纯中文场景

8K/16K/24K

标准版

瑞琳

ruilin

标准女声

通用场景

纯中文场景

8K/16K/24K

标准版

思悦

siyue

温柔女声

客服场景

中文及中英文混合场景

8K/16K/24K

标准版

艾雅

aiya

严厉女声

客服场景

中文及中英文混合场景

8K/16K

标准版

艾美

aimei

甜美女声

客服场景

中文及中英文混合场景

8K/16K

标准版

艾雨

aiyu

自然女声

客服场景

中文及中英文混合场景

8K/16K

标准版

艾悦

aiyue

温柔女声

客服场景

中文及中英文混合场景

8K/16K

标准版

艾婧

aijing

严厉女声

客服场景

中文及中英文混合场景

8K/16K

标准版

小美

xiaomei

甜美女声

客服场景

中文及中英文混合场景

8K/16K/24K

标准版

艾娜

aina

浙普女声

客服场景

纯中文场景

8K/16K

标准版

伊娜

yina

浙普女声

客服场景

纯中文场景

8K/16K/24K

标准版

思婧

sijing

严厉女声

客服场景

纯中文场景

8K/16K/24K

标准版

思彤

sitong

儿童音

童声场景

纯中文场景

8K/16K/24K

标准版

小北

xiaobei

萝莉女声

童声场景

纯中文场景

8K/16K/24K

标准版

艾彤

aitong

儿童音

童声场景

纯中文场景

8K/16K

标准版

艾薇

aiwei

萝莉女声

童声场景

纯中文场景

8K/16K

标准版

艾宝

aibao

萝莉女声

童声场景

纯中文场景

8K/16K

标准版

Harry

harry

英音男声

英文场景

英文场景

8K/16K

标准版

Abby

abby

美音女声

英文场景

英文场景

8K/16K

标准版

Andy

andy

美音男声

英文场景

英文场景

8K/16K

标准版

Eric

eric

英音男声

英文场景

英文场景

8K/16K

标准版

Emily

emily

英音女声

英文场景

英文场景

8K/16K

标准版

Luna

luna

英音女声

英文场景

英文场景

8K/16K

标准版

Luca

luca

英音男声

英文场景

英文场景

8K/16K

标准版

Wendy

wendy

英音女声

英文场景

英文场景

8K/16K/24K

标准版

William

william

英音男声

英文场景

英文场景

8K/16K/24K

标准版

Olivia

olivia

英音女声

英文场景

英文场景

8K/16K/24K

标准版

姗姗

shanshan

粤语女声

方言场景

标准粤文(简体)及粤英文混合场景

8K/16K/24K

标准版

艾媛

aiyuan

知心姐姐

文学场景

中文及中英文混合场景

8K/16K

精品版

艾颖

aiying

软萌童声

文学场景

中文及中英文混合场景

8K/16K

精品版

艾祥

aixiang

磁性男声

文学场景

中文及中英文混合场景

8K/16K

精品版

艾墨

aimo

情感男声

文学场景

中文及中英文混合场景

8K/16K

精品版

艾晔

aiye

青年男声

文学场景

中文及中英文混合场景

8K/16K

精品版

艾婷

aiting

电台女声

文学场景

中文及中英文混合场景

8K/16K

精品版

艾凡

aifan

情感女声

文学场景

中文及中英文混合场景

8K/16K

精品版

Lydia

lydia

英中双语女声

英文场景

英文及英中文混合场景

8K/16K

标准版

小玥

chuangirl

四川话女声

方言场景

中文及中英文混合场景

8K/16K

标准版

艾硕

aishuo

自然男声

客服场景

中文及中英文混合场景

8K/16K

标准版

艾德

aide

新闻男声

文学场景

中文及中英文混合场景

8K/16K

精品版

青青

qingqing

中国台湾话女声

方言场景

纯中文场景

8K/16K

标准版

翠姐

cuijie

东北话女声

方言场景

纯中文场景

8K/16K

标准版

小泽

xiaoze

湖南重口音男声

方言场景

纯中文场景

8K/16K

标准版

艾楠

ainan

广告男声

文学场景

中文及中英文混合场景

8K/16K

精品版

艾浩

aihao

资讯男声

文学场景

中文及中英文混合场景

8K/16K

精品版

艾茗

aiming

诙谐男声

文学场景

中文及中英文混合场景

8K/16K

精品版

艾笑

aixiao

资讯女声

文学场景

中文及中英文混合场景

8K/16K

精品版

艾厨

aichu

舌尖男声

文学场景

中文及中英文混合场景

8K/16K

精品版

艾倩

aiqian

资讯女声

文学场景

中文及中英文混合场景

8K/16K

精品版

智香

tomoka

日语女声

多语种场景

纯日文场景

8K/16K

标准版

智也

tomoya

日语男声

多语种场景

纯日文场景

8K/16K

标准版

Annie

annie

美语女声

英文场景

纯英文场景

8K/16K

标准版

艾树

aishu

资讯男声

文学场景

中文及中英文混合场景

8K/16K

精品版

艾茹

airu

新闻女声

文学场景

中文及中英文混合场景

8K/16K

精品版

佳佳

jiajia

粤语女声

方言场景

标准粤文(简体)及粤英文混合场景

8K/16K

标准版

Indah

indah

印尼语女声

多语种场景

纯印尼语场景

8K/16K

标准版

桃子

taozi

粤语女声

方言场景

支持标准粤文(简体)及粤英文混合场景

8K/16K

标准版

柜姐

guijie

亲切女声

通用场景

支持中文及中英文混合场景

8K/16K

标准版

Stella

stella

知性女声

通用场景

支持中文及中英文混合场景

8K/16K

标准版

Stanley

stanley

沉稳男声

通用场景

支持中文及中英文混合场景

8K/16K

标准版

Kenny

kenny

沉稳男声

通用场景

支持中文及中英文混合场景

8K/16K

标准版

Rosa

rosa

自然女声

通用场景

支持中文及中英文混合场景

8K/16K

标准版

Farah

farah

马来语女声

多语种场景

仅支持纯马来语场景

8K/16K

标准版

马树

mashu

儿童剧男声

通用场景

通用场景

8K/16K

标准版

知琪

zhiqi

温柔女声

超高清场景

支持中文及中英文混合场景

8K/16K/24K/48K

精品版

知厨

zhichu

舌尖男声

超高清场景

支持中文及中英文混合场景

8K/16K/24K/48K

精品版

小仙

xiaoxian

亲切女声

直播场景

支持中文及中英文混合场景

8K/16K

标准版

悦儿

yuer

儿童剧女声

通用场景

仅支持纯中文场景

8K/16K

标准版

猫小美

maoxiaomei

活力女声

直播场景

支持中文及中英文混合场景

8K/16K

标准版

知祥

zhixiang

磁性男声

超高清场景

支持中文及中英文混合场景

8K/16K/24K/48K

精品版

知佳

zhijia

标准女声

超高清场景

支持中文及中英文混合场景

8K/16K/24K/48K

精品版

知楠

zhinan

广告男声

超高清场景

支持中文及中英文混合场景

8K/16K/24K/48K

精品版

知倩

zhiqian

资讯女声

超高清场景

支持中文及中英文混合场景

8K/16K/24K/48K

精品版

知茹

zhiru

新闻女声

超高清场景

支持中文及中英文混合场景

8K/16K/24K/48K

精品版

知德

zhide

新闻男声

超高清场景

支持中文及中英文混合场景

8K/16K/24K/48K

精品版

知飞

zhifei

激昂解说

超高清场景

支持中文及中英文混合场景

8K/16K

精品版

艾飞

aifei

激昂解说

直播场景

支持中文及中英文混合场景

8K/16K

标准版

亚群

yaqun

卖场广播

直播场景

支持中文及中英文混合场景

8K/16K

标准版

巧薇

qiaowei

卖场广播

直播场景

支持中文及中英文混合场景

8K/16K

标准版

大虎

dahu

东北话男声

方言场景

支持中文及中英文混合场景

8K/16K

标准版

ava

ava

美语女生

英文场景

仅支持纯英文场景

8K/16K

标准版

知伦

zhilun

悬疑解说

超高清场景

支持中文及中英文混合场景

8K/16K

精品版

艾伦

ailun

悬疑解说

直播场景

支持中文及中英文混合场景

8K/16K

标准版

杰力豆

jielidou

治愈童声

童声场景

仅支持纯中文场景

8K/16K

标准版

知薇

zhiwei

萝莉女声

超高清场景

仅支持纯中文场景

8K/16K/24K/48K

精品版

老铁

laotie

东北老铁

直播场景

仅支持纯中文场景

8K/16K

标准版

老妹

laomei

吆喝女声

直播场景

仅支持纯中文场景

8K/16K

标准版

艾侃

aikan

天津话男声

方言场景

仅支持纯中文场景

8K/16K

标准版

Tala

tala

菲律宾语女声

多语种场景

仅支持菲律宾语场景

8K/16K

标准版

Tien

tien

越南语女声

多语种场景

仅支持越南语场景

8K/16K

标准版

Becca

becca

美语客服女声

美式英文

仅支持纯英语场景

8K/16K

标准版

Kyong

Kyong

韩语女声

韩语场景

韩语

8K/16K

标准版

masha

masha

俄语女声

俄语场景

俄语

8K/16K

标准版

camila

camila

西班牙语女声

西班牙语场景

西班牙语

8k/16k

标准版

perla

perla

意大利语女声

意大利语场景

意大利语

8k/16k

标准版

知猫

zhimao

普通话女声

直播

中文

8k/16k

标准版

知媛

zhiyuan

普通话女声

通用场景

中文

8k/16k

标准版

知雅

zhiya

普通话女声

客服

中文

8k/16k

标准版

知悦

zhiyue

普通话女声

通用场景

中文

8k/16k

标准版

知达

zhida

普通话男声

通用场景

中文

8k/16k

标准版

知莎

zhistella

普通话女声

通用场景

中文

8k/16k

标准版

Kelly

kelly

香港粤语女声

方言场景

香港粤语

8k/16k

标准版

clara

clara

法语女声

通用场景

法语

8k/16k

标准版

hanna

hanna

德语女声

通用场景

德语

8k/16k

标准版

waan

waan

泰语女声

通用场景

泰语

8k/16k

标准版

betty

betty

美式英文女声

通用场景

美式英文

8k/16k

标准版

beth

beth

美式英文女声

通用场景

美式英文

8k/16k

标准版

cindy

cindy

美式英文女声

通用场景

美式英文

8k/16k

标准版

donna

donna

美式英文女声

通用场景

美式英文

8k/16k

标准版

eva

eva

美式英文女声

通用场景

美式英文

8k/16k

标准版

brian

brian

美式英文男声

通用场景

美式英文

8k/16k

标准版

就近地域智能接入

流式文本语音合成支持就近地域智能接入,域名为nls-gateway.aliyuncs.com

推荐终端用户使用就近地域接入。根据调用接口时客户端所在的地理位置,系统会自动解析到最近的某个具体地域的服务器。例如在北京地域发起请求,系统会自动解析到北京地域的服务器,与指定域名nls-gateway-cn-beijing.aliyuncs.com的实现效果一致。

服务地址

访问类型

说明

URL

外网访问

所有服务器均可使用外网访问URL(SDK中默认设置了外网访问URL)。

北京:wss://nls-gateway-cn-beijing.aliyuncs.com/ws/v1

ECS内网访问

使用阿里云北京ECS(即ECS地域为华北2(北京)),可使用内网访问URL。 ECS的经典网络不能访问AnyTunnel,即不能在内网访问语音服务;如果希望使用AnyTunnel,需要创建专有网络在其内部访问。

说明

使用内网访问方式,将不产生ECS实例的公网流量费用。

关于ECS的网络类型请参见网络类型

北京:ws://nls-gateway-cn-beijing-internal.aliyuncs.com:80/ws/v1

交互流程

image
  1. 鉴权

    客户端在与服务端建立WebSocket连接时,使用Token进行鉴权。关于Token获取请参见获取Token概述

  2. 开始合成

    客户端发起语音合成请求,在请求消息中进行参数设置,各参数通过SDK中FlowingSpeechSynthesizer对象的set方法设置,含义如下。

    参数

    类型

    是否必选

    说明

    appkey

    String

    管控台创建的项目Appkey。获取Appkey请前往控制台

    voice

    String

    说话人音色。

    format

    枚举类型/String

    音频编码格式,在OutputFormatEnum中的枚举类型:.pcm.wav.mp3,默认为.pcm

    sample_rate

    枚举类型/Integer

    音频采样率,默认为16000 Hz,在SampleRateEnum中的枚举类型:SAMPLE_RATE_8K, SAMPLE_RATE_16K, SAMPLE_RATE_24K, SAMPLE_RATE_48K。

    volume

    Integer

    朗读音量,范围是0~100,默认50。

    speech_rate

    Integer

    朗读语速,范围是-500~500,默认是0。

    pitch_rate

    Integer

    朗读语调,范围是-500~500,默认是0。

    enable_subtitle

    Boolean

    开启字级别时间戳。更多使用方法,请参见时间戳功能介绍

    usage

    object

    计量信息,表示本次请求所消耗的字符数据

    (1个汉字算作2个字符;1个英文字母、1个标点或1个句子中间空格均算作1个字符。)

  3. 接收合成数据

    服务端返回合成的语音二进制数据,SDK接收并处理二进制数据。

  4. 结束合成

    语音合成完毕,服务端发送合成完毕事件通知,举例如下。

    {
        "header": {
            "message_id": "05450bf69c53413f8d88aed1ee60****",
            "task_id": "640bc797bb684bd6960185651307****",
            "namespace": "FlowingSpeechSynthesizer",
            "name": "SynthesisCompleted",
            "status": 20000000,
            "status_message": "GATEWAY|SUCCESS|Success."
        }
    }