接口说明

长文本语音合成功能提供了将超长文本(如千字或者万字)合成为语音二进制数据的功能。并且支持通过SSML添加背景音、停顿并修正读音。

计费和并发限制

功能介绍

  • 支持输出PCM、WAVMP3编码格式的数据。

  • 每个会话中仅可发送一次文本,文本不得超过1万字符。

  • 支持采用UTF-8编码的文本输入。

  • 支持设置语速、语调和音量。

  • 支持设置不同的发音人。

  • 支持SSML标记。

  • 不支持时间戳功能。

  • 不支持流式发送文本。

音色列表

说明

更多合成效果可至语音合成产品详情页进行体验。该详情页仅提供大部分音色试听,若详情页没有您想要的音色试听,请通过接口文档进行调用试听。

CosyVoice-V2音色

名称

音色名称

(voice参数值)

类型

场景

支持语言

支持采样率

支持时间戳功能

支持SSML

龙橙

longcheng_v2

阳光男声

智能客服、新闻播报、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙华

longhua_v2

活泼女童

智能客服、新闻播报、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙书

longshu_v2

新闻男声

新闻播报、有声读物

中文及中英文混合

8k/16k/24k

Bella2.0

loongbella_v2

新闻女声

智能客服、新闻播报、对话闲聊、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙婉

longwan_v2

普通话女声

智能客服、新闻播报、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙小淳

longxiaochun_v2

温柔姐姐

智能客服、新闻播报、对话闲聊、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙小夏

longxiaoxia_v2

温柔女声

智能客服、新闻播报、对话闲聊、有声读物、车载导航

中文及中英文混合

8k/16k/24k

CosyVoice-V1音色

名称

音色名称

(voice参数值)

类型

场景

支持语言

支持采样率

支持时间戳功能

支持SSML

龙臣

longchen

译制片男声

译制片

中文及中英文混合

8k/16k/24k

龙熊

longxiong

译制片男声

译制片

中文及中英文混合

8k/16k/24k

龙玉

longyu

御姐女声

对话闲聊、新闻播报、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙娇

longjiao

御姐女声

对话闲聊、新闻播报、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙玫

longmei

温柔女声

对话闲聊、新闻播报、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙瑰

longgui

温柔女声

对话闲聊、新闻播报、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙乒

longping

体育解说男声

体育赛事解说

中文及中英文混合

8k/16k/24k

龙乓

longpang

体育解说男声

体育赛事解说

中文及中英文混合

8k/16k/24k

龙无

longwu

无厘头男声

对话闲聊、新闻播报、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙奇

longqi

活泼童声

对话闲聊、新闻播报、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙仙

longxian_normal

阳光女声

对话闲聊、新闻播报、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙菲

longfeifei

成熟女声

对话闲聊、新闻播报、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙修

longxiu

青年男声

对话闲聊、新闻播报、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙大锤

longdachui

幽默男声

对话闲聊、新闻播报、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙佳佳

longjiajia

亲和女声

对话闲聊、新闻播报、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙嘉怡

longjiayi

粤语女声

对话闲聊、新闻播报、有声读物、车载导航

粤语及粤英混合

8k/16k/24k

龙桃

longtao

粤语女声

对话闲聊、新闻播报、有声读物、车载导航

粤语及粤英混合

8k/16k/24k

龙嘉欣

longjiaxin

粤语女声

对话闲聊、新闻播报、有声读物、车载导航

粤语及粤英混合

8k/16k/24k

龙橙

longcheng

阳光男声

智能客服、新闻播报、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙哲

longzhe

成熟男声

对话闲聊、新闻播报、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙楠

longnan

青年男声

新闻播报、车载导航

中文及中英文混合

8k/16k/24k

龙颜

longyan

亲切女声

智能客服、对话闲聊、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙嫱

longqiang

慵懒女声

对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙华

longhua

活泼女童

智能客服、新闻播报、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙星

longxing

暖心女声

智能客服、对话闲聊

中文及中英文混合

8k/16k/24k

龙津

longjin

青年男声

智能客服、新闻播报、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙寒

longhan

青年男声

智能客服、新闻播报、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙天

longtian

霸总男声

对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙硕

longshuo

沉稳男声

智能客服、新闻播报、有声读物、

中文及中英文混合

8k/16k/24k

Stella2.0

loongstella

飒爽女声

智能客服、新闻播报、对话闲聊、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙小诚

longxiaocheng

气质大叔

智能客服、新闻播报、对话闲聊、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙小夏

longxiaoxia

温柔女声

智能客服、新闻播报、对话闲聊、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙小淳

longxiaochun

温柔姐姐

智能客服、新闻播报、对话闲聊、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙小白

longxiaobai

闲聊女声

新闻播报、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙老铁

longlaotie

东北男声

对话闲聊、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙悦

longyue

评书女声

智能客服、新闻播报、有声读物、

中文及中英文混合

8k/16k/24k

Bella2.0

loongbella

新闻女声

智能客服、新闻播报、对话闲聊、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙书

longshu

新闻男声

新闻播报、有声读物

中文及中英文混合

8k/16k/24k

龙婧

longjing

严肃女声

新闻播报、有声读物

中文及中英文混合

8k/16k/24k

龙妙

longmiao

气质女声

智能客服、新闻播报、对话闲聊、有声读物、车载导航

中文及中英文混合

8k/16k/24k

龙老李

libai

普通话男声

诗词朗诵、散文、有声读物

中文及中英文混合

8k/16k/24k

龙婉

longwan

普通话女声

智能客服、新闻播报、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙可

longke

活泼女童

智能客服、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙铃

longling

活泼女童

智能客服、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙绍

longshao

活力男声

智能客服、新闻播报、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙泽

longze

阳光男声

智能客服、新闻播报、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

龙浩

longhao

温暖男声

智能客服、新闻播报、对话闲聊、有声读物

中文及中英文混合

8k/16k/24k

服务地址

访问类型

说明

URL

外网访问

所有服务器均可使用外网访问URL(SDK中默认设置了外网访问URL)。

北京:wss://nls-gateway-cn-beijing.aliyuncs.com/ws/v1

ECS内网访问

使用阿里云北京ECS(即ECS地域为华北2(北京)),可使用内网访问URL。 ECS的经典网络不能访问AnyTunnel,即不能在内网访问语音服务;如果希望使用AnyTunnel,需要创建专有网络在其内部访问。

说明

使用内网访问方式,将不产生ECS实例的公网流量费用。

关于ECS的网络类型请参见网络类型

北京:ws://nls-gateway-cn-beijing-internal.aliyuncs.com:80/ws/v1

交互流程

image
  1. 鉴权

    客户端在与服务端建立WebSocket连接时,使用Token进行鉴权。关于Token获取请参见获取Token概述

  2. 配置参数

    客户端发起语音合成请求前,可以进行参数设置,各参数通过SDKStreamInputTts对象的set方法设置,含义如下。

    参数

    类型

    是否必选

    说明

    appkey

    String

    管控台创建的项目Appkey。获取Appkey请前往控制台

    voice

    String

    说话人音色。

    format

    枚举类型/String

    音频编码格式,在OutputFormatEnum中的枚举类型:.opus.pcm.wav.mp3,默认为.pcm

    sample_rate

    枚举类型/Integer

    音频采样率,默认为16000 Hz,在SampleRateEnum中的枚举类型:SAMPLE_RATE_8K, SAMPLE_RATE_16K, SAMPLE_RATE_24K, SAMPLE_RATE_48K。

    volume

    Integer

    朗读音量,范围是0~100,默认50。

    speech_rate

    Integer

    朗读语速,范围是-500~500,默认是0。

    pitch_rate

    Integer

    朗读语调,范围是-500~500,默认是0。

    bit_rate

    Integer

    指定音频的码率,仅对OPUS编码生效。取值范围:6~510kbps。默认是32。

    usage

    object

    计量信息,表示本次请求所消耗的字符数据

    (1个汉字算作2个字符;1个英文字母、1个标点或1个句子中间空格均算作1个字符。)

  3. 发送待合成文本

    客户端发起语音合成请求,并发送待合成文本。文本可以通过startTts中的text参数设置。

    参数

    类型

    是否必选

    说明

    text

    String

    设置待合成文本,文本内容必须采用UTF-8编码,长度不超过10000个字符(英文字母之间需要添加空格)。

    说明

    长文本语音合成服务支持SSML功能。SSML不仅控制语音合成能读什么,更能控制语音合成可以怎么读,包括控制断句分词方式、发音、速度、停顿、声调和音量等特征,甚至加入背景音乐。

    SSML的使用方法请参考SSML标记语言介绍

  4. 接收合成数据

    服务端返回合成的语音二进制数据,SDK接收并处理二进制数据。

  5. 结束合成

    语音合成完毕,服务端发送合成完毕事件通知,举例如下。

    {
        "header": {
            "message_id": "05450bf69c53413f8d88aed1ee60****",
            "task_id": "640bc797bb684bd6960185651307****",
            "namespace": "FlowingSpeechSynthesizer",
            "name": "SynthesisCompleted",
            "status": 20000000,
            "status_message": "GATEWAY|SUCCESS|Success."
        }
    }