使用WebSocket协议实现流式文本语音合成-智能语音交互-阿里云

本文介绍如何使用智能语音交互流式文本WebSocket协议使用语音合成。如果您不希望引入阿里云智能语音交互产品SDK，或者目前提供的SDK不能满足您的要求，可以基于本文描述自行开发代码访问阿里语音服务。

前提条件

在使用WebSocket协议对接之前，请先阅读接口说明。

鉴权

服务端通过临时Token进行鉴权，请求时需要在URL中携带Token参数，Token获取方式请参见获取Token概述。获取Token之后通过如下方式访问语音服务端。

访问类型

说明

URL

外网访问

所有服务器均可使用外网访问URL（SDK中默认设置了外网访问URL）。

北京：wss://nls-gateway-cn-beijing.aliyuncs.com/ws/v1

ECS内网访问

使用阿里云北京ECS（即ECS地域为华北2（北京）），可使用内网访问URL。 ECS的经典网络不能访问AnyTunnel，即不能在内网访问语音服务；如果希望使用AnyTunnel，需要创建专有网络在其内部访问。

说明

使用内网访问方式，将不产生ECS实例的公网流量费用。

关于ECS的网络类型请参见网络类型。

北京：ws://nls-gateway-cn-beijing-internal.aliyuncs.com:80/ws/v1

请求指令

请求指令用于控制语音合成任务的起止，标识任务边界，以JSON格式的Text Frame方式发送服务端请求，需要在Header中设置请求的基础信息。指令由Header和Payload两部分组成，其中Header部分为统一格式，不同指令的Payload部分格式各不相同。

1. Header格式说明

Header格式如下：

参数	类型	是否必选	说明
header	请求头	-	-
header.appkey	String	是	管控台创建的项目Appkey。
header.message_id	String	是	当次消息请求ID，随机生成32位唯一ID。
header.task_id	String	是	整个实时语音合成的会话ID，整个请求中需要保持一致，32位唯一ID。
header.namespace	String	是	访问的产品名称，固定为“FlowingSpeechSynthesizer”。
header.name	String	是	指令名称，包含StartSynthesis和StopSynthesis指令。

2. StartSynthesis指令

参数	类型	是否必选	说明
payload.voice	String	否	发音人，默认是xiaoyun。发音人，默认是xiaoyun。
payload.format	String	否	音频编码格式，支持pcm、wav和mp3格式，默认值：pcm。音频编码格式，支持pcm、wav和mp3格式，默认值：pcm。
payload.sample_rate	Integer	否	音频采样率，默认值：16000Hz。
payload.volume	Integer	否	音量，取值范围：0～100。默认值：50。
payload.speech_rate	Integer	否	语速，取值范围：-500～500，默认值：0。 [-500,0,500]对应的语速倍速区间为 [0.5,1.0,2.0]。
payload.pitch_rate	Integer	否	语调，取值范围：-500～500，默认值：0。
payload.enable_subtitle	Boolean	否	开启字级别时间戳。
payload.enable_phoneme_timestamp	Boolean	否	开启音素级别时间戳。
payload.enable_aigc_tag	Boolean	否	是否在生成的音频中添加AIGC隐性标识。设置为true时，会将隐性标识嵌入到支持格式（wav/mp3/opus）的音频中。默认值：false。
payload.aigc_propagator	String	否	设置AIGC隐性标识中的 `ContentPropagator` 字段，用于标识内容的传播者。仅在 `enable_aigc_tag` 为 `true` 时生效。默认值：阿里云UID。
payload.aigc_propagate_id	String	否	设置AIGC隐性标识中的 `PropagateID` 字段，用于唯一标识一次具体的传播行为。仅在 `enable_aigc_tag` 为 `true` 时生效。默认值：本次语音合成请求Task ID。

{
    "header": {
        "message_id": "05450bf69c53413f8d88aed1ee60****",
        "task_id": "640bc797bb684bd6960185651307****",
        "namespace": "FlowingSpeechSynthesizer",
        "name": "StartSynthesis",
        "appkey": "17d4c634****"
    },
    "payload": {
        "voice": "xiaoyun",
        "format": "wav",
        "sample_rate": 16000,
        "volume": 50,
        "speech_rate": 0,
        "pitch_rate": 0,
        "enable_subtitle": true
    }
}

3. RunSynthesis指令

参数	类型	是否必选	说明
text	String	是	需要合成的文本

{
    "header": {
        "message_id": "05450bf69c53413f8d88aed1ee60****",
        "task_id": "640bc797bb684bd6960185651307****",
        "namespace": "FlowingSpeechSynthesizer",
        "name": "RunSynthesis",
        "appkey": "17d4c634****"
    },
    "payload": {
        "text": "流式输入文本"
    }
}

4. StopSynthesis指令

StopSynthesis指令要求服务端停止语音合成，并且合成所有缓存文本。

重要

由于流式文本语音合成服务端会分句合成音频，因此服务端存在未满足分句条件的缓存文本，需要在文本流发送结束后立刻发送此指令，否则有可能丢失文本。

Payload为空。示例代码如下：

{
    "header": {
        "message_id": "05450bf69c53413f8d88aed1ee60****",
        "task_id": "640bc797bb684bd6960185651307****",
        "namespace": "FlowingSpeechSynthesizer",
        "name": "StopSynthesis",
        "appkey": "17d4c634****"
    }
}

下行数据

WebSocket 数据帧分为文本帧 (text frame)、二进制帧 (binary frame)、关闭帧 (close frame)、Ping帧和Pong帧。我们使用文本帧下发事件，使用二进制帧下发音频数据流。

以python中的websocket-client为例，可以参考下述示例代码解析WebSocket收到的数据：

audio_data = None


# 监听消息的回调函数
def on_message(self, ws, message):
    if isinstance(message, str):
        # 将文本帧解析为json
        try:
            json_data = json.loads(message)
            # TODO: 解析事件
        except json.JSONDecodeError:
            print("Failed to parse message as JSON.")
    elif isinstance(message, (bytes, bytearray)):
        # 将二进制帧作为音频帧保存
        # TODO: 保存音频或使用支持流式输入的播放器播放，例如pyaudio
        if audio_data is None:
            audio_data = bytes(message)
        else:
            audio_data = self._audio_data + bytes(message)

ws = websocket.WebSocketApp(
    url,
    header={
        "X-NLS-Token": token,
    },
    on_message=on_message,
    on_error=None,
    on_close=None,
)

关于Websocket详细介绍可以参考链接

事件

事件指的是服务端返回给客户端的处理进度事件，代表不同的处理阶段，客户端可获取不同处理阶段的事件实现不同的业务逻辑。以JSON格式返回，事件由Header和Payload两部分组成，其中Header部分为统一格式，不同事件的Payload部分格式可能不同。

1. SynthesisStarted事件

{
    "header": {
        "message_id": "05450bf69c53413f8d88aed1ee60****",
        "task_id": "640bc797bb684bd6960185651307****",
        "namespace": "FlowingSpeechSynthesizer",
        "name": "SynthesisStarted",
        "status": 20000000,
        "status_message": "GATEWAY|SUCCESS|Success."
    }
}

2. SentenceBegin事件

SentenceBegin事件表示服务端检测到了一句话的开始。

参数	类型	说明
index	Integer	句子编号，从1开始递增。

{
    "header": {
        "message_id": "05450bf69c53413f8d88aed1ee60****",
        "task_id": "640bc797bb684bd6960185651307****",
        "namespace": "FlowingSpeechSynthesizer",
        "name": "SentenceBegin",
        "status": 20000000,
        "status_message": "GATEWAY|SUCCESS|Success."
    },
    "payload": {
        "index": 1
    }
}

3. SentenceSynthesis事件

SentenceSynthesis事件表示有新的合成结果返回，包含最新的音频和时间戳，句内全量，句间增量。

参数	类型	说明
subtitles[]	ArrayList	时间戳信息。
subtitles[0].text	String	⽂本信息。
subtitles[0].sentence	String	句子时间戳控制，True表示当前时间戳为句子。
subtitles[0].begin_index	Integer	该字在整句中的开始位置，从0开始。
subtitles[0].end_index	Integer	该字在整句中的结束位置，从0开始。
subtitles[0].begin_time	Integer	⽂本对应TTS语⾳开始时间戳，单位ms。
subtitles[0].end_time	Integer	⽂本对应TTS语⾳结束时间戳，单位ms。
subtitles[0].phoneme_list	ArrayList	文本的音素时间戳信息。
subtitles[0].phoneme_list[0].index	Integer	该音素的下标，从0开始。
subtitles[0].phoneme_list[0].beginTime	Integer	该音素对应TTS语音开始时间戳，单位ms。
subtitles[0].phoneme_list[0].endTime	Integer	该音素对应TTS语音结束时间戳，单位ms。
subtitles[0].phoneme_list[0].phoneme	String	音素信息。
subtitles[0].phoneme_list[0].tone	String	语气信息。

{
    "header": {
        "message_id": "05450bf69c53413f8d88aed1ee60****",
        "task_id": "640bc797bb684bd6960185651307****",
        "namespace": "FlowingSpeechSynthesizer",
        "name": "SentenceSynthesis",
        "status": 20000000,
        "status_message": "GATEWAY|SUCCESS|Success."
    },
    "payload": {
        "subtitles": [
            {
                "text": "",
                "begin_time": 0,
                "end_time": 0,
                "begin_index": 0,
                "end_index": 1,
                "sentence": true,
                "phoneme_list": []
            },
            {
                "text": "今",
                "begin_time": 0,
                "end_time": 175,
                "begin_index": 0,
                "end_index": 1,
                "sentence": false,
                "phoneme_list": [
                    {
                        "begin_time": 0,
                        "end_time": 120,
                        "text": "j_c",
                        "tone": "1"
                    },
                    {
                        "begin_time": 120,
                        "end_time": 170,
                        "text": "in_c",
                        "tone": "1"
                    }
                ]
            }
        ]
    }
}

4. SentenceEnd事件

SentenceEnd事件表示服务端检测到了一句话的结束，返回该句的全量时间戳。

参数	类型	说明
subtitles[]	ArrayList	时间戳信息。
subtitles[0].text	String	⽂本信息。
subtitles[0].sentence	String	句子时间戳控制，True表示当前时间戳为句子。
subtitles[0].begin_index	Integer	该字在整句中的开始位置，从0开始。
subtitles[0].end_index	Integer	该字在整句中的结束位置，从0开始。
subtitles[0].begin_time	Integer	⽂本对应TTS语⾳开始时间戳，单位ms。
subtitles[0].end_time	Integer	⽂本对应TTS语⾳结束时间戳，单位ms。
subtitles[0].phoneme_list	ArrayList	文本的音素时间戳信息。
subtitles[0].phoneme_list[0].index	Integer	该音素的下标，从0开始。
subtitles[0].phoneme_list[0].beginTime	Integer	该音素对应TTS语音开始时间戳，单位ms。
subtitles[0].phoneme_list[0].endTime	Integer	该音素对应TTS语音结束时间戳，单位ms。
subtitles[0].phoneme_list[0].phoneme	String	音素信息。
subtitles[0].phoneme_list[0].tone	String	语气信息。

{
    "header": {
        "message_id": "05450bf69c53413f8d88aed1ee60****",
        "task_id": "640bc797bb684bd6960185651307****",
        "namespace": "FlowingSpeechSynthesizer",
        "name": "SentenceEnd",
        "status": 20000000,
        "status_message": "GATEWAY|SUCCESS|Success."
    },
    "payload": {
        "subtitles": [
            {
                "text": "",
                "begin_time": 0,
                "end_time": 0,
                "begin_index": 0,
                "end_index": 1,
                "sentence": true,
                "phoneme_list": []
            },
            {
                "text": "今",
                "begin_time": 0,
                "end_time": 175,
                "begin_index": 0,
                "end_index": 1,
                "sentence": false,
                "phoneme_list": [
                    {
                        "begin_time": 0,
                        "end_time": 120,
                        "text": "j_c",
                        "tone": "1"
                    },
                    {
                        "begin_time": 120,
                        "end_time": 170,
                        "text": "in_c",
                        "tone": "1"
                    }
                ]
            },
            {
                "text": "天",
                "begin_time": 175,
                "end_time": 320,
                "begin_index": 1,
                "end_index": 2,
                "sentence": false,
                "phoneme_list": [
                    {
                        "begin_time": 0,
                        "end_time": 120,
                        "text": "t_c",
                        "tone": "1"
                    },
                    {
                        "begin_time": 120,
                        "end_time": 170,
                        "text": "ian_c",
                        "tone": "1"
                    }
                ]
            }
        ]
    }
}

5. SynthesisCompleted事件

SynthesisCompleted事件表示服务端已停止了语音合成并且所有音频数据下发完毕。

只有发送了StopSynthesis指令，才能接收到该事件。

{
    "header": {
        "message_id": "05450bf69c53413f8d88aed1ee60****",
        "task_id": "640bc797bb684bd6960185651307****",
        "namespace": "FlowingSpeechSynthesizer",
        "name": "SynthesisCompleted",
        "status": 20000000,
        "status_message": "GATEWAY|SUCCESS|Success."
    }
}

下行音频流

在流式语音合成中，音频会以数据流的方式分帧下发。下发的所有音频为一个完整的音频文件，可以通过支持流式播放的播放器，例如：ffmpeg、pyaudio (Python)、AudioFormat (Java)、MediaSource (Javascript)等，实时播放。

重要

从第一次发起RunSynthesis指令发送文本开始，到收到SynthesisCompleted之间会收到音频流。
在流式语音合成中，是将一个完整的音频文件分多次返回。在播放流式音频时，需要使用支持流式播放的音频播放器，而不是将每一帧当作一个独立的音频播放，这样无法成功解码。
在保存音频时，请使用追加模式写入同一个文件。
在使用wav/mp3格式合成音频时，由于文件按照流式合成，因此只在第一帧中包含当前任务的文件头信息。

JavaScript示例代码

可以参考流式语音合成JS播放示例使用JavaScript实现流式语音合成协议并播放。

请在打开index.html前首先替换app.js中的appkey和token，之后您可以通过下面的python命令在当前目录下启动一个简单的 HTTP 服务器，并在浏览器中输入http://localhost:8000打开网页。

python -m http.server 8000

在网页中，您可以点击按钮发送对应指令。点击RunSynthesis会发送您在文本框中输入的文本片段到服务器，在一次流程中，RunSynthesis可以点击多次。

流式播放器说明

在audio_player.js中，我们使用 Web Audio API 开发了 PCMAudioPlayer 播放器播放流式PCM格式的音频，将16bit采样点转化为float写入audioBuffer播放，并且在上一段音频播放结束的onended回调中立刻播放下一段音频。

重要

使用MediaSource播放流式音频是一个更加简洁的方案，但是MediaSource不支持如下浏览器：Safari、基于Safari的iOS WebView、微信小程序。更多兼容信息请参见MediaSource。
使用openai-realtime-console中集成的wavtools在移动端和safari浏览器中播放时会有噪声。

测试工具

在根据Websocket协议开发接口过程中，可以下载 stream_input_tts_mock_server.py 脚本，运行如下命令安装依赖，并在本地模拟公有云流式语音合成服务进行调试：

pip install websocket-client
python NlsStreamInputTtsMockServer.py

在成功执行脚本后，将默认在本地的 ws://127.0.0.1:12345 运行模拟服务。请在可以成功调用本地的模拟服务后再切换到线上服务调试。