安装并使用Java SDK实现语音合成-智能语音交互-阿里云

本文介绍如何使用阿里云智能语音服务提供的Java SDK，包括SDK的安装方法及SDK代码示例。

前提条件

使用SDK前，请先阅读接口说明，详情请参见接口说明。
已准备项目Appkey，详情请参见创建项目。
已获取Access Token，详情请参见获取Token概述。

下载安装

您可以下载现有的Maven示例项目，无需从零构建项目就可以体验语音合成的功能。您也可以从零构建项目或是将语音合成的代码集成到您现有的项目中。

下载现有的Maven示例项目
解压下载的ZIP文件，在nls-sdk-java-demo目录下运行mvn package命令，会在nls-sdk-java-demo目录下各个子目录的target目录生成可执行jar包。
以nls-sdk-java-demo/nls-example-tts/target/nls-example-tts-2.0.0-jar-with-dependencies.jar为例，将其拷贝到您的应用所在的服务器，可以快速验证并压测服务：
服务验证：运行如下代码，并按提示提供相应参数。运行后在命令执行目录生成logs/nls.log。
```
java -cp nls-example-tts-2.0.0-jar-with-dependencies.jar com.alibaba.nls.client.SpeechSynthesizerDemo
```
服务压测：运行如下代码，并按提示提供相应参数。其中阿里云服务URL参数为：wss://nls-gateway-cn-shanghai.aliyuncs.com/ws/v1，并发数根据您的购买情况进行选择。
```
java -jar nls-example-tts-2.0.0-jar-with-dependencies.jar
```
从零构建项目或将语音合成的代码集成到现有项目中
需要您在新创建的项目或者已有项目中，配置最新版SDK依赖信息，关于SDK的信息，可以在Maven镜像仓获取。
配置如下（以Maven和Gradle为例）：
Maven
打开您的Maven项目的pom.xml文件。
在<dependencies>标签内添加以下依赖信息。
<dependency> <groupId>com.alibaba.nls</groupId> <artifactId>nls-sdk-tts</artifactId>  <version>the-latest-version</version> </dependency>
保存pom.xml文件。
使用Maven命令（如mvn clean install或mvn compile）来更新项目依赖，这样Maven会自动下载并添加SDK到您的项目中。
Gradle
打开您的Gradle项目的build.gradle文件。
在dependencies块内添加以下依赖信息。
dependencies { // 请将 'the-latest-version' 替换为查询到的最新版本号：https://mvnrepository.com/artifact/com.alibaba.nls/nls-sdk-tts implementation group: 'com.alibaba.nls', name: 'nls-sdk-tts', version: 'the-latest-version' }
保存build.gradle文件。
在命令行中，切换到您的项目根目录，执行以下Gradle命令来更新项目依赖。这将自动下载并添加SDK到您的项目中。
./gradlew build --refresh-dependencies
或者，如果您使用的是Windows系统，命令为：
gradlew build --refresh-dependencies

重要

Java SDK 从 2.1.7 版本开始（含2.1.7），waitForComplete 接口的超时时间单位从秒变更为毫秒。

SDK调用注意事项

NlsClient使用Netty框架，NlsClient对象的创建会消耗一定时间和资源，一经创建可以重复使用。建议调用程序将NlsClient的创建和关闭与程序本身的生命周期相结合。
SpeechSynthesizer对象不可重复使用，一个语音合成任务对应一个SpeechSynthesizer对象。例如，N个文本要进行N次语音合成任务，创建N个SpeechSynthesizer对象。
SpeechSynthesizerListener对象和SpeechSynthesizer对象是一一对应的，不能将一个SpeechSynthesizerListener对象设置到多个SpeechSynthesizer对象中，否则不能将各语音合成任务区分开。
Java SDK依赖Netty网络库，如果您的应用依赖Netty，其版本需更新至4.1.17.Final及以上。

SDK使用步骤和关键接口说明

使用Java SDK编写语音合成代码的基本流程如下，您可以将代码示例中的代码复制到您的IDE中，并根据如下内容阅读代码，以便更好地理解（如您想了解更多接口细节，请参考Java API接口说明）。

1、创建实例

经过以下步骤，完成鉴权和连接服务代码的编写：

创建`AccessToken`实例

AccessToken封装了AccessKey，通过AccessToken类的构造函数直接传入参数可以完成实例的创建。

访问密钥AccessKey（简称AK）是阿里云提供给用户的永久访问凭据，是由AccessKey ID和AccessKey Secret组成的密钥对。

接口/函数	参数	返回值	描述
`public AccessToken(String accessKeyId, String accessKeySecret)`	`accessKeyId`：AccessKey ID，用于标识用户。 `accessKeySecret`：AccessKey Secret，用于验证您拥有上述AccessKey ID的密码。	无	构造函数。
`public String getToken()`	无	具体的Token	获取Token。

示例：

AccessToken accessToken = new AccessToken(accessKeyId, accessKeySecret);

创建`NlsClient`实例

NlsClient是语音处理客户端，利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全，建议全局仅创建一个实例。

接口/函数	参数	返回值	描述
`public NlsClient(String url, String token)`	`url`：语音合成服务地址。默认值为wss://nls-gateway.cn-shanghai.aliyuncs.com/ws/v1。您需要配置符合自己实际情况的地址，参见服务地址进行获取。 `token`：安全令牌，由`AccessToken`类的`getToken`方法提供。	无	构造函数。
`public void shutdown()`	无	无	在应用的最后调用此方法，释放资源。

示例：

NlsClient client = new NlsClient("wss://nls-gateway-cn-shanghai.aliyuncs.com/ws/v1", accessToken.getToken());

创建`SpeechSynthesizerListener`实例

SpeechSynthesizerListener是语音合成监听类，监听返回结果（观察者模式）。非线程安全。

主要接口：

接口/函数	参数	返回值	描述
`public void onMessage(ByteBuffer message)`	`message`：语音合成二进制数据	无	服务器回调该接口，将合成的二进制音频数据发送给客户端。
`public abstract void onComplete(SpeechSynthesizerResponse response)`	`response`：服务器返回的响应信息	无	语音合成完成后，服务器回调该接口。
`public void onMetaInfo(SpeechSynthesizerResponse response)`	`response`：服务器返回的响应信息	无	当通过`enable_subtitle`参数开启字级别时间戳时，可实现该函数，接收服务器返回的时间戳等信息。

示例：

  SpeechSynthesizerListener listener = new SpeechSynthesizerListener() {
      //接收语音合成的语音二进制数据
      @Override
      public void onMessage(ByteBuffer message) {
           // 在这里实现细节
      }
  
      // 语音合成结束
      @Override
      public void onComplete(SpeechSynthesizerResponse response) {
          // 在这里实现细节
      }
  }

创建`SpeechSynthesizer`实例

SpeechSynthesizer是语音合成处理类，通过它的setter方法可以设置发音人、音频编码格式、采样率等参数。通过它的start方法，开启语音合成任务。非线程安全。

接口/函数	参数	返回值	描述
`public SpeechSynthesizer(NlsClient client, SpeechSynthesizerListener listener)`	`client`：前面创建的`NlsClient`实例。 `listener`：前面创建的`SpeechSynthesizerListener`实例。	无	构造函数。

示例：

//创建实例，建立连接。
SpeechSynthesizer synthesizer = new SpeechSynthesizer(client, listener);

2、设置项目Appkey

调用SpeechSynthesizer实例的setAppKey方法设置项目Appkey。

接口/函数	参数	返回值	描述
`public void setAppKey(String appKey)`	`appKey`：项目Appkey	无	设置项目Appkey。

示例：

synthesizer.setAppKey(appKey);

3、设置语音合成相关参数

调用SpeechSynthesizer实例的setter方法，设置发音人、音频格式、采样率等属性。

参数名称

类型

是否必选

描述

enable_subtitle

Boolean

否

开启字级别时间戳。通过接口addCustomedParam设置：

synthesizer.addCustomedParam("enable_subtitle", true);

更多使用方法，请参见语音合成时间戳功能介绍。

接口/函数	参数	返回值	描述
`public void setText(String text)`	`text`：待合成文本。	无	设置待合成文本，文本内容必须采用UTF-8编码，长度不超过300个字符（英文字母之间需要添加空格）。说明调用某音色的多情感内容，需要在text中加上ssml-emotion标签，详情请参见<emotion>。只有支持多情感的音色，才能使用<emotion>标签，否则会报错：Illegal ssml text。
`public void setVoice(String voice)`	`voice`：发音人。更多发音人请参见接口说明。	无	设置发音人。
`public void setFormat(OutputFormatEnum format)`	format：音频编码格式。 `OutputFormatEnum.PCM`：pcm格式。 `OutputFormatEnum.WAV`：wav格式。 `OutputFormatEnum.MP3`：mp3格式。	无	设置音频编码格式。不设置时默认格式为pcm（`OutputFormatEnum.PCM`）。
`public void setSampleRate(SampleRateEnum sampleRate)`	`sampleRate`：音频采样率。 `SampleRateEnum.SAMPLE_RATE_16K`：16000Hz。 `SampleRateEnum.SAMPLE_RATE_8K`：8000Hz。	无	设置音频采样率。不设置时默认采样率为16000Hz（`SampleRateEnum.SAMPLE_RATE_16K`）。
`public void setVolume(int volume)`	`volume`：音量，取值范围：0~100。	无	设置音量。不设置时默认值：50。
`public void setSpeechRate(int speechRate)`	`speechRate`：语速，取值范围：-500~500。	无	设置语速。不设置时默认值：0。
`public void setPitchRate(int pitchRate)`	`pitchRate`：语调，取值范围：-500~500。	无	设置语调。不设置时默认值：0。
`public void addCustomedParam(String key, Object value)`	key：自定义请求参数key。 value：自定义请求参数value。	无	设置自定义请求参数，用于设置语音服务的高级属性，或新功能。语音合成中，该方法目前只有一个用法： `synthesizer.addCustomedParam("enable_subtitle", true);`

示例：

//设置返回音频的编码格式
synthesizer.setFormat(OutputFormatEnum.WAV);
//设置返回音频的采样率
synthesizer.setSampleRate(SampleRateEnum.SAMPLE_RATE_16K);
//发音人
synthesizer.setVoice("siyue");
//语调，范围是-500~500，可选，默认是0。
synthesizer.setPitchRate(100);
//语速，范围是-500~500，默认是0。
synthesizer.setSpeechRate(100);
//设置用于语音合成的文本
synthesizer.setText("欢迎使用阿里巴巴智能语音合成服务，您可以说北京明天天气怎么样啊");
// 是否开启字级别时间戳，默认不开启，需要注意并非所有发音人都支持该参数。
synthesizer.addCustomedParam("enable_subtitle", false);

4、开始合成语音

调用SpeechSynthesizer实例的start方法。

接口/函数	参数	返回值	描述
`public void start()`	无	无	开始语音合成。

示例：

synthesizer.start();

5、等待语音合成结束

调用SpeechSynthesizer实例的waitForComplete方法。

接口/函数	参数	返回值	描述
`public void waitForComplete()`	无	无	等待语音合成结束。
`public void waitForComplete(int seconds)`	`seconds`：等待时间重要 Java SDK 从 2.1.7 版本开始（含2.1.7），waitForComplete 接口的超时时间单位从秒变更为毫秒。	无	等待语音合成结束。

示例：

 //等待语音合成结束
 synthesizer.waitForComplete();

6、关闭连接并释放资源

调用SpeechSynthesizer实例的close方法关闭连接。
接口/函数
参数
返回值
描述
public void close()
无
无
关闭连接。
调用NlsClient实例的shutdown方法释放资源。
接口/函数
参数
返回值
描述
public void shutdown()
无
无
在应用的最后调用此方法，释放资源。

代码示例

说明

示例中使用SDK内置的默认语音合成服务的外网访问服务URL，如果您使用位于阿里云上海地域的ECS，且需要通过内网访问服务URL，则在创建NlsClient对象时，设置内网访问的URL：
```
client = new NlsClient("wss://nls-gateway-cn-shanghai.aliyuncs.com/ws/v1", accessToken);
```
示例中将合成的音频保存在文件中，如果您需要播放音频且对实时性要求较高，建议使用流式播放，即边接收语音数据边播放，减少延时。
调用接口前，需配置环境变量，通过环境变量读取访问凭证。智能语音交互的AccessKey ID、AccessKey Secret和AppKey的环境变量名：ALIYUN_AK_ID、ALIYUN_AK_SECRET、NLS_APP_KEY。

import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.nio.ByteBuffer;
import com.alibaba.nls.client.protocol.NlsClient;
import com.alibaba.nls.client.protocol.OutputFormatEnum;
import com.alibaba.nls.client.protocol.SampleRateEnum;
import com.alibaba.nls.client.protocol.tts.SpeechSynthesizer;
import com.alibaba.nls.client.protocol.tts.SpeechSynthesizerListener;
import com.alibaba.nls.client.protocol.tts.SpeechSynthesizerResponse;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
/**
 * 此示例演示了：
 *      语音合成API调用。
 *      动态获取token。获取Token具体操作，请参见：https://help.aliyun.com/document_detail/450514.html
 *      流式合成TTS。
 *      首包延迟计算。
 */
public class SpeechSynthesizerDemo {
    private static final Logger logger = LoggerFactory.getLogger(SpeechSynthesizerDemo.class);
    private static long startTime;
    private String appKey;
    NlsClient client;
    public SpeechSynthesizerDemo(String appKey, String accessKeyId, String accessKeySecret) {
        this.appKey = appKey;
        //应用全局创建一个NlsClient实例，默认服务地址为阿里云线上服务地址。
        //获取token，使用时注意在accessToken.getExpireTime()过期前再次获取。
        AccessToken accessToken = new AccessToken(accessKeyId, accessKeySecret);
        try {
            accessToken.apply();
            System.out.println("get token: " + accessToken.getToken() + ", expire time: " + accessToken.getExpireTime());
            client = new NlsClient(accessToken.getToken());
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
    public SpeechSynthesizerDemo(String appKey, String accessKeyId, String accessKeySecret, String url) {
        this.appKey = appKey;
        AccessToken accessToken = new AccessToken(accessKeyId, accessKeySecret);
        try {
            accessToken.apply();
            System.out.println("get token: " + accessToken.getToken() + ", expire time: " + accessToken.getExpireTime());
            if(url.isEmpty()) {
                client = new NlsClient(accessToken.getToken());
            }else {
                client = new NlsClient(url, accessToken.getToken());
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
    private static SpeechSynthesizerListener getSynthesizerListener() {
        SpeechSynthesizerListener listener = null;
        try {
            listener = new SpeechSynthesizerListener() {
                File f=new File("tts_test.wav");
                FileOutputStream fout = new FileOutputStream(f);
                private boolean firstRecvBinary = true;
                //语音合成结束
                @Override
                public void onComplete(SpeechSynthesizerResponse response) {
                    //调用onComplete时表示所有TTS数据已接收完成，因此为整个合成数据的延迟。该延迟可能较大，不一定满足实时场景。
                    System.out.println("name: " + response.getName() +
                        ", status: " + response.getStatus()+
                        ", output file :"+f.getAbsolutePath()
                    );
                }
                //语音合成的语音二进制数据
                @Override
                public void onMessage(ByteBuffer message) {
                    try {
                        if(firstRecvBinary) {
                            //计算首包语音流的延迟，收到第一包语音流时，即可以进行语音播放，以提升响应速度（特别是实时交互场景下）。
                            firstRecvBinary = false;
                            long now = System.currentTimeMillis();
                            logger.info("tts first latency : " + (now - SpeechSynthesizerDemo.startTime) + " ms");
                        }
                        byte[] bytesArray = new byte[message.remaining()];
                        message.get(bytesArray, 0, bytesArray.length);
                        fout.write(bytesArray);
                    } catch (IOException e) {
                        e.printStackTrace();
                    }
                }
                @Override
                public void onFail(SpeechSynthesizerResponse response){
                    //task_id是调用方和服务端通信的唯一标识，当遇到问题时需要提供task_id以便排查。
                    System.out.println(
                        "task_id: " + response.getTaskId() +
                            //状态码 20000000 表示识别成功
                            ", status: " + response.getStatus() +
                            //错误信息
                            ", status_text: " + response.getStatusText());
                }
            };
        } catch (Exception e) {
            e.printStackTrace();
        }
        return listener;
    }
    public void process() {
        SpeechSynthesizer synthesizer = null;
        try {
            //创建实例，建立连接。
            synthesizer = new SpeechSynthesizer(client, getSynthesizerListener());
            synthesizer.setAppKey(appKey);
            //设置返回音频的编码格式
            synthesizer.setFormat(OutputFormatEnum.WAV);
            //设置返回音频的采样率
            synthesizer.setSampleRate(SampleRateEnum.SAMPLE_RATE_16K);
            //发音人
            synthesizer.setVoice("siyue");
            //语调，范围是-500~500，可选，默认是0。
            synthesizer.setPitchRate(100);
            //语速，范围是-500~500，默认是0。
            synthesizer.setSpeechRate(100);
            //设置用于语音合成的文本
            synthesizer.setText("欢迎使用阿里巴巴智能语音合成服务，您可以说北京明天天气怎么样啊");
            // 是否开启字幕功能（返回相应文本的时间戳），默认不开启，需要注意并非所有发音人都支持该参数。
            synthesizer.addCustomedParam("enable_subtitle", false);
            //此方法将以上参数设置序列化为JSON格式发送给服务端，并等待服务端确认。
            long start = System.currentTimeMillis();
            synthesizer.start();
            logger.info("tts start latency " + (System.currentTimeMillis() - start) + " ms");
            SpeechSynthesizerDemo.startTime = System.currentTimeMillis();
            //等待语音合成结束
            synthesizer.waitForComplete();
            logger.info("tts stop latency " + (System.currentTimeMillis() - start) + " ms");
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            //关闭连接
            if (null != synthesizer) {
                synthesizer.close();
            }
        }
    }
    public void shutdown() {
        client.shutdown();
    }
    public static void main(String[] args) throws Exception {
        String appKey = System.getenv().get("NLS_APP_KEY");
        String id = System.getenv().get("ALIYUN_AK_ID");
        String secret = System.getenv().get("ALIYUN_AK_SECRET");
        String url = System.getenv().getOrDefault("NLS_GATEWAY_URL", "wss://nls-gateway-cn-shanghai.aliyuncs.com/ws/v1");
        SpeechSynthesizerDemo demo = new SpeechSynthesizerDemo(appKey, id, secret, url);
        demo.process();
        demo.shutdown();
    }
}

常见问题

在测试实时语音识别和语音合成功能时，对应JAR包在哪里？

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>

<parent>
<groupId>com.alibaba.nls</groupId>
<artifactId>nls-sdk-java-examples</artifactId>
<version>2.0.0</version>
<relativePath>../pom.xml</relativePath>
</parent>

<groupId>com.alibaba.nls</groupId>
<artifactId>nls-example-tts</artifactId>

<dependencies>
<dependency>
<groupId>ch.qos.logback</groupId>
<artifactId>logback-classic</artifactId>
<version>1.0.13</version>
</dependency>
<dependency>
<groupId>com.alibaba.nls</groupId>
<artifactId>nls-sdk-tts</artifactId>
<version>${sdk.version}</version>
</dependency>
</dependencies>

<build>
<plugins>
<plugin>
<artifactId>maven-assembly-plugin</artifactId>
<version>3.0.0</version>
<configuration>
<archive>
<manifest>
<mainClass>com.alibaba.nls.client.SpeechSynthesizerMultiThreadDemo</mainClass>
</manifest>
</archive>

<descriptorRefs>
<descriptorRef>jar-with-dependencies</descriptorRef>
</descriptorRefs>

</configuration>
<executions>
<execution>
<id>make-assembly</id> <!-- this is used for inheritance merges -->
<phase>package</phase> <!-- bind to the packaging phase -->
<goals>
<goal>single</goal>
</goals>
</execution>
</executions>
</plugin>
</plugins>
</build>
</project>

Java SDK语音合成报错，提示java.nio.channels.ClosedChannelException at io.netty.channel.AbstractChannel$AbstractUnsafe.ensureOpen(...)如何解决？

如果未生成TaskId，说明请求未成功到达智能语音交互的服务端，一般为本地环境问题。建议您优先排查本地网络和环境，将线上Demo和本地对比检查。

Java SDK通过传入阿里云账号的AccessKey ID和AccessKey Secret，调用阿里云Java SDK得到client提示错误org.json.JSONArray.iterator()Ljava/util/Iterator如何解决？

请确认依赖包是否完整，查找并添加如下两个依赖JAR包。

<dependency>
<groupId>org.json</groupId>
<artifactId>json</artifactId>
<version>20170516</version>
</dependency>

<dependency>
<groupId>com.google.code.gson</groupId>
<artifactId>gson</artifactId>
<version>2.8.2</version>
</dependency>

Java SDK找不到com.alibaba的JAR包，如何安装Alibaba Cloud SDK for Java？

请参见V1.0 Java SDK安装Alibaba Cloud SDK for Java。

如何结合SDK日志，分析延迟问题？

以Java SDK日志为例。

一句话识别的延迟为一句话说完开始，到收到最终识别结果为止，消耗的时间。

在日志中搜索关键字StopRecognition以及RecognitionCompleted，分别找到语音发送完毕时的日志，以及一句话识别结束的日志。记录的时间差即为SDK端记录的一句话延时，如下日志延迟为：984-844=140（ms）。

14:24:44.844 DEBUG [main] [c.a.n.c.transport.netty4.NettyConnection] thread:1,send:{"header":{"namespace":"SpeechRecognizer","name":"StopRecognition","message_id":"bccac69b505f4e2897d12940e5b38953","appkey":"FWpPCaVYDRp6J1rO","task_id":"8c5c28d9a40c4a229a5345c09bc9c968"}}
14:24:44.984 DEBUG [ntLoopGroup-2-1] [c.a.n.c.p.asr.SpeechRecognizerListener] on message:{"header":{"namespace":"SpeechRecognizer","name":"RecognitionCompleted","status":20000000,"message_id":"2869e93427b9429190206123b7a3d397","task_id":"8c5c28d9a40c4a229a5345c09bc9c968","status_text":"Gateway:SUCCESS:Success."},"payload":{"result":"北京的天气。","duration":2959}}

语音合成关注首包延迟，即从发送合成请求开始，到收到第一个语音包为止，消耗的时间。

日志中搜索关键字send，找到这条日志和紧随其后的一条收到语音包的日志。记录的时间差即为SDK端记录的首包延时。如下日志延时为1035-813=222（ms）。

14:32:13.813 DEBUG [main] [c.a.n.c.transport.netty4.NettyConnection] thread:1,send:{"payload":{"volume":50,"voice":"Ruoxi","sample_rate":8000,"format":"wav","text":"国家是由领土、人民、文化和政府四个要素组成的，国家也是政治地理学名词。从狭义的角度，国家是一定范围内的人群所形成的共同体形式。"},"context":{"sdk":{"name":"nls-sdk-java","version":"2.1.0"},"network":{"upgrade_cost":160,"connect_cost":212}},"header":{"namespace":"SpeechSynthesizer","name":"StartSynthesis","message_id":"6bf2a84444434c0299974d8242380d6c","appkey":"FWpPCaVYDRp6J1rO","task_id":"affa5c90986e4378907fbf49eddd283a"}}
14:32:14.035  INFO [ntLoopGroup-2-1] [  c.a.n.c.protocol.tts.SpeechSynthesizer] write array:6896

实时语音识别SDK日志类似一句话识别，可以从日志中计算语音末尾处延迟（关键字：StopTranscription和TranscriptionCompleted）。
RESTful形式访问，客户端自带日志中没有体现延迟。需要用户自己编写代码，或者查看服务端日志。