C++ SDK

本文介绍如何使用阿里云智能语音服务提供的C++ SDK,包括SDK的安装方法及SDK代码示例。

SDK下载

说明

  • 当前最新版本:3.1.14,支持Linux、Windows及Android平台。发布日期:2022年11月09日。

  • 使用SDK前,请先阅读接口说明,详情请参见接口说明

  • 该版本C++ SDK API 3.1和上一版本API 2.0(已下线)定义有区别,本文以当前版本为例进行介绍。

您可通过以下两种方法获取SDK。

  • 方法一:从GitHub获取最新源码,详细编译和运行方式可见下文,或查看源码中的readme.md。

git clone --depth 1 https://github.com/aliyun/alibabacloud-nls-cpp-sdk
  • 方法二:直接从下文表中选取需要的SDK包进行下载。其中SDK源码包为SDK原始代码,需要通过下文编译方法生成集成所需的库文件。其他对应平台的SDK包内含相关库文件、头文件,无需编译。

最新SDK包

平台

MD5

alibabacloud-nls-cpp-sdk3.1.14-master_3bf92a9.zip

SDK源码

f5f951190fbc10b39c41239f0483758e

NlsCppSdk_Linux_3.1.14_3bf92a9.tar.gz

Linux

973370cba9e947a1a8acea5b4171c014

NlsCppSdk_Android_3.1.13_d1b6694.tar.gz

Android

0107c1ac58c92b94f35f6d98e2cbf6cf

NlsCppSdk_Windows_3.1.14_3bf92a9.zip

Windows

a5f664a27b00bc091068a7b7ce39a2d4

其中:

  • alibabacloud-nls-cpp-sdk<version>-master_<github commit id>.zip为SDK源码包。

  • NlsCppSdk_<平台>_<版本号>_<github commit id>.tar.gz为对应平台下开发需要的SDK包,详见内部readme.md。

SDK包文件说明

  • scripts/build_linux.sh:SDK源码中,以Linux平台为例的示例编译脚本。

  • CMakeLists.txt:SDK源码中,以Linux/Android平台为例的示例代码工程CMakeList文件。

  • demo目录:SDK包中,集成示例代码,以Linux平台为例,如下表所示。

  • 文件名

    描述

    speechRecognizerDemo.cpp

    一句话识别示例。

    speechSynthesizerDemo.cpp

    语音合成示例。

    speechTranscriberDemo.cpp

    实时语音识别示例。

    fileTransferDemo.cpp

    录音文件识别示例。

  • resource目录:SDK源码中,语音服务范例音频,可用于功能测试,如下表所示。

  • 文件名

    描述

    • test0.wav

    • test1.wav

    • test2.wav

    • test3.wav

    测试音频(16k采样频率、16bit采样位数的音频文件)。

  • include:SDK源码中,SDK头文件,如下表所示。

    文件名

    描述

    nlsClient.h

    SDK实例。

    nlsEvent.h

    回调事件说明。

    nlsGlobal.h

    SDK全局头文件。

    nlsToken.h

    SDK Access Token实例。

    iNlsRequest.h

    NLS请求基础头文件。

    speechRecognizerRequest.h

    一句话识别。

    speechSynthesizerRequest.h

    语音合成、长文本语音合成。

    speechTranscriberRequest.h

    实时音频流识别。

    FileTrans.h

    录音文件识别。u

  • lib:SDK库文件。

  • readme.md:SDK说明。

  • release.log:版本说明。

  • version:版本号。

编译运行

Linux平台编译

  1. 安装工具的最低版本要求如下:

    • CMake 3.1

    • Glibc 2.5

    • Gcc 4.1.2

  2. 在Linux终端运行如下脚本。

    1. 进入SDK源码的根目录。

    2. 生成SDK库文件和可执行程序:srDemo(一句话识别)、stDemo(实时语音识别)、syDemo(语音合成)、daDemo(语音对话)。

      ./scripts/build_linux.sh
    3. 查看范例使用方式。

      cd build/demo 
      ./srDemo 

Android平台编译

支持arm64-v8a、armeabi、armeabi-v7a、x86、x86_64编译指令,在SDK源码运行如下编译脚本。

./scripts/build_android.sh #默认增量编译,生成arm64-v8a架构Debug版本
./scripts/build_android.sh all debug arm64-v8a    #全量编译,生成arm64-v8a架构Debug版本
./scripts/build_android.sh incr debug arm64-v8a   #增量编译,生成arm64-v8a架构Debug版本
./scripts/build_android.sh all release arm64-v8a    #全量编译,生成arm64-v8a架构Release版本
./scripts/build_android.sh incr release arm64-v8a    #增量编译,生成arm64-v8a架构Release版本

Windows平台编译

此方式使用已经编译好的第三方库进行编译。

  1. 下载alibabacloud-nls-cpp-sdk<version>-master_<github commit id>.zip并解压到本地,或从GitHub获取最新代码。​

  2. 进入scripts目录,使用文本编辑工具分别打开build_windows_64_prebuild.batbuild_windows_64_package.bat,修改解压缩工具WinRAR。

    例如,您的个人电脑WinRAR.exe所在路径为C:\Program Files (x86)\WinRAR\WinRAR.exe,则修改脚本文件中第三行为set winRar="C:\Program Files (x86)\WinRAR\WinRAR.exe" 为您的个人电脑中WinRAR路径。

  3. 双击批处理脚本build_windows_64_prebuild.bat,从而解压SDK源码中包含的各第三方库,并把依赖头文件释放到合适位置。

  4. 使用Visual Studio(VS2015及以上版本)打开nlsCppSdk.sln,直接编译需要的范例工程。

    说明
    • 需要确认好各项目属性中的目标平台版本平台工具集,按需选择。例如,您的目标平台版本10.0.19041.0平台工具集Visual Studio 2015(v140)

    • 目前支持Debug_x64,Release_x64,Debug_win32和Release_win32。本文档说明均以x64为例。

  5. 右键单击speechRecognizerDemo项目,单击生成进行编译。

  6. 编译Debug_x64和Release_x64。

    • Debug生成物路径:{ProjectRoot}\build\build_win64\nlsCppSdk\x64\Debug

    • Release生成物路径:{ProjectRoot}\build\build_win64\nlsCppSdk\x64\Release

    各路径包含所有生成的dll和测试exe文件。其中{ProjectRoot}为SDK源码路径。

  7. 若需要对生成的库文件、测试exe文件、头文件、说明文档等对外披露的文件进行打包,则在scripts目录下双击运行build_windows_64_package.bat,生成{ProjectRoot}\build\install\NlsSdk3.X_win64.zip。其中{ProjectRoot}为SDK源码路径。

关键接口

  • 基础接口

    • NlsClient:语音处理客户端,利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全,建议全局仅创建一个实例。

      接口名

      功能描述

      getInstance

      获取(创建)NlsClient实例。

      setLogConfig

      设置日志文件与存储路径。

      startWorkThread

      启动工作线程数,默认1即启动一个线程,若-1则启动CPU核数的线程数。在高并发的情况下建议选择-1。

      releaseInstance

      销毁NlsClient对象实例。

      getVersion

      获取SDK版本号。

      createRecognizerRequest

      创建一句话识别对象,线程安全,支持高并发请求。

      releaseRecognizerRequest

      销毁一句话识别对象,需要在当前请求的closed事件后调用。

    • NlsToken:创建Token对象,用于申请获取TokenId。申请新Token时需要先获取有效时间戳,若超过有效时间则再申请。若在有效时间内多次申请Token会导致TokenId错误而无法使用。

      接口名

      功能描述

      setAccessKeyId

      设置阿里云账号AccessKey ID。

      setKeySecret

      设置阿里云账号AccessKey Secret。

      applyNlsToken

      申请获取TokenId。

      getToken

      获取TokenId。

      getExpireTime

      获取Token有效期时间戳(秒)。

    • NlsEvent:事件对象,您可以从中获取Request状态码、云端返回结果、失败信息等。

      接口名

      功能描述

      getStatusCode

      获取状态码,正常情况为0或者20000000,失败时对应失败的错误码。

      getErrorMessage

      在TaskFailed回调中,获取NlsRequest操作过程中出现失败时的错误信息。

      getTaskId

      获取任务的TaskId。

      getAllResponse

      获取云端返回的识别结果。

      getResult

      获取中间识别结果和最终结果。

  • 识别接口

    SpeechRecognizerRequest:一句话识别请求对象,用于短语音识别。

    接口名

    功能描述

    setOnTaskFailed

    设置错误回调函数。

    setOnRecognitionStarted

    设置一句话识别开始回调函数。

    setOnRecognitionResultChanged

    设置一句话识别中间结果回调函数。

    setOnRecognitionCompleted

    设置服务端结束服务回调函数。

    setOnChannelClosed

    设置通道关闭回调函数。

    setAppKey

    设置AppKey。

    setToken

    口令认证。所有的请求都必须通过SetToken方法认证通过,才可以使用。

    setUrl

    设置服务URL地址。

    setIntermediateResult

    设置是否返回中间识别结果。

    setPunctuationPrediction

    设置是否在后处理中添加标点。

    setInverseTextNormalization

    设置是否在后处理中执行数字转换。

    setEnableVoiceDetection

    设置是否启动自定义静音检测。

    setMaxStartSilence

    超出后服务端将会发送RecognitionCompleted事件,结束本次识别。

    setMaxEndSilence

    超出后服务端将会发送RecognitionCompleted事件,结束本次识别。

    setFormat

    设置音频数据编码格式。

    setSampleRate

    音频采样率设置。

    setCustomizationId

    设置定制模型。

    setVocabularyId

    设置泛热词。

    setTimeout

    设置Socket接收超时时间。

    setOutputFormat

    设置输出文本的编码格式。

    setPayloadParam

    参数设置。

    setContextParam

    设置用户自定义参数。

    AppendHttpHeaderParam

    设置用户自定义ws阶段http header参数。

    start

    启动SpeechRecognizerRequest。

    stop

    会与服务端确认关闭,正常停止链接操作。

    cancel

    不会与服务端确认关闭,直接关闭链接。

    sendAudio

    发送语音数据。

C++ SDK错误码

状态码

状态消息

原因

解决方案

10000001

NewSslCtxFailed

SSL: couldn't create a context!

建议重新初始化。

10000002

DefaultErrorCode

return of SSL_read: error:00000000:lib(0):func(0):reason(0)

建议重新尝试。

return of SSL_read: error:140E0197:SSL routines:SSL_shutdown:shutdown while in init

10000003

SysErrorCode

系统错误。

根据系统反馈的错误信息进行处理。

10000004

EmptyUrl

URL: The url is empty.

传入的URL为空, 请重新填写正确URL。

10000005

InvalidWsUrl

Could not parse WebSocket url:

传入的URL格式错误, 请重新填写正确URL。

10000007

JsonStringParseFailed

JSON: Json parse failed.

JISO格式异常, 请通过日志查看具体的错误点。

10000008

UnknownWsHeadType

WEBSOCKET: unkown head type.

联网失败,请检查本机DNS解析和URL是否有效。

10000009

HttpConnectFailed

HTTP: connect failed.

与云端连接失败,请检查网络后,重试。

10000010

MemNotEnough

内存不足。

请检查内存是否充足。

10000015

SysConnectFailed

connect failed.

联网失败,请检查本机DNS解析和URL是否有效。

10000100

HttpGotBadStatusWith403

Got bad status host=xxxxx line=HTTP/1.1 403 Forbidden

链接被拒,请检查账号特别是token是否过期。

10000101

EvSendTimeout

Send timeout. socket error:

libevent发送event超时,请检查回调中是否有耗时任务,或并发过大导致无法及时处理事件。

10000102

EvRecvTimeout

Recv timeout. socket error:

libevent接收event超时,请检查回调中是否有耗时任务,或并发过大导致无法及时处理事件。

10000103

EvUnknownEvent

Unknown event:

未知的libevent事件,建议重新尝试。

10000104

OpNowInProgress

Operation now in progress

链接正在进行中,建议重新尝试。

10000105

BrokenPipe

Broken pipe

pipe处理不过来,建议重新尝试。

10000110

TokenHasExpired

Gateway:ACCESS_DENIED:The token 'xxx' has expired!

请更新Token。

10000111

TokenIsInvalid

Meta:ACCESS_DENIED:The token 'xxx' is invalid!

请检查token的有效性。

10000112

NoPrivilegeToVoice

Gateway:ACCESS_DENIED:No privilege to this voice! (voice: zhinan, privilege: 0)

此发音人无权使用。

10000113

MissAuthHeader

Gateway:ACCESS_DENIED:Missing authorization header!

请检查账号是否有权限,或并发是否在限度内。

10000120

Utf8ConvertError

utf8ToGbk failed

utf8转码失败,常为系统问题,建议重新尝试。

服务端响应状态码

关于服务状态码,请参见服务状态码

代码示例

说明

  • 示例中使用的音频文件为16000Hz采样率,管控台设置的模型为通用模型。如果使用其他音频,请设置为支持该音频场景的模型。关于模型设置,请参见管理项目

  • 示例中使用了SDK内置的默认一句话识别服务的外网访问服务URL,如果您使用阿里云上海ECS且需要使用内网访问URL,则在创建SpeechRecognizerRequest的对象中设置内网访问的URL。

    request->setUrl("ws://nls-gateway.cn-shanghai-internal.aliyuncs.com/ws/v1")
  • 完整示例,参见SDK压缩包中demo目录的speechRecognizerDemo.cpp文件。

#include <string.h>
#include <unistd.h>
#include <pthread.h>
#include <stdlib.h>
#include <ctime>
#include <string>
#include <iostream>
#include <vector>
#include <fstream>
#include <sys/time.h>
#include "nlsClient.h"
#include "nlsEvent.h"
#include "nlsToken.h"
#include "speechRecognizerRequest.h"

#define FRAME_SIZE 3200
#define SAMPLE_RATE 16000

using namespace AlibabaNlsCommon; 
using AlibabaNls::NlsClient; 
using AlibabaNls::NlsEvent; 
using AlibabaNls::LogDebug; 
using AlibabaNls::LogInfo; 
using AlibabaNls::LogError;
using AlibabaNls::SpeechRecognizerRequest;

//自定义线程参数。
struct ParamStruct {
    std::string fileName;
    std::string appkey; 
    std::string token; 
};
//自定义事件回调参数。
struct ParamCallBack {
    int userId;
    char userInfo[8];
};

//全局维护一个服务鉴权Token和其对应的有效期时间戳。
//每次调用服务之前,首先判断Token是否已经过期。
//如果已经过期,则根据AccessKey ID和AccessKey Secret重新生成一个Token,并更新这个全局的token和其有效期时间戳。
//获取Token具体操作,请参见:https://help.aliyun.com/document_detail/450514.html
//说明:只需在Token即将过期时进行重新生成。所有的服务并发可共用一个Token。
std::string g_akId = "";
std::string g_akSecret = "";
std::string g_token = "";
long g_expireTime = -1;
struct timeval tv;
struct timeval tv1;
int generateToken(std::string akId, std::string akSecret, std::string* token, long* expireTime) {
    NlsToken nlsTokenRequest;
    nlsTokenRequest.setAccessKeyId(akId); 
    nlsTokenRequest.setKeySecret(akSecret); 
    if (-1 == nlsTokenRequest.applyNlsToken()) {
        // 获取失败原因。
        printf("generateToken Failed: %s\n", nlsTokenRequest.getErrorMsg());
        return -1;
    }
    *token = nlsTokenRequest.getToken();
    *expireTime = nlsTokenRequest.getExpireTime();
    return 0;
}

//@brief 获取sendAudio发送延时时间。
//@param dataSize 待发送数据大小。
//@param sampleRate 采样率:16k/8K。
//@param compressRate 数据压缩率,例如压缩比为10:1的16k OPUS编码,此时为10,非压缩数据则为1。
//@return 返回sendAudio之后需要sleep的时间。
//@note 对于8k pcm 编码数据, 16位采样,建议每发送1600字节 sleep 100 ms.
//             对于16k pcm 编码数据, 16位采样,建议每发送3200字节 sleep 100 ms.
//             对于其它编码格式(OPUS)的数据, 由于传递给SDK的仍然是PCM编码数据,
//             按照SDK OPUS/OPU 数据长度限制, 需要每次发送640字节 sleep 20ms.
unsigned int getSendAudioSleepTime(int dataSize, int sampleRate, int compressRate) { 
    // 仅支持16位采样
    const int sampleBytes = 16;     // 仅支持单通道
    const int soundChannel = 1;     // 当前采样率,采样位数下每秒采样数据的大小。
    int bytes = (sampleRate * sampleBytes * soundChannel) / 8;     // 当前采样率,采样位数下每毫秒采样数据的大小。
    int bytesMs = bytes / 1000;     // 待发送数据大小除以每毫秒采样数据大小,以获取sleep时间。
    int sleepMs = (dataSize * compressRate) / bytesMs;
    return sleepMs; 
}
//@brief 调用start(),成功与云端建立连接,sdk内部线程上报started事件。
//@param cbEvent 回调事件结构,详见nlsEvent.h。
//@param cbParam 回调自定义参数,默认为NULL。可以根据需求自定义参数。
void OnRecognitionStarted(NlsEvent* cbEvent, void* cbParam) {
    ParamCallBack* tmpParam = (ParamCallBack*)cbParam;
    // 演示如何打印/使用用户自定义参数。
    printf("OnRecognitionStarted: %d, %s\n", tmpParam->userId, tmpParam->userInfo);
    // 获取消息的状态码,成功为0或者20000000,失败时对应失败的错误码。
    // 当前任务的task id,方便定位问题,作为和服务端交互的唯一标识建议输出。
    printf("OnRecognitionStarted: status code=%d, task id=%s\n", cbEvent->getStatusCode(), cbEvent->getTaskId()); 
    // 获取服务端返回的全部信息
    //printf("OnRecognitionStarted: all response=%s\n", cbEvent->getAllResponse()); 
} 

//@brief 设置允许返回中间结果参数,SDK在接收到云端返回到中间结果时,内部线程上报ResultChanged事件。
//@param cbEvent 回调事件结构,详情参见nlsEvent.h。
//@param cbParam 回调自定义参数,默认为NULL。可以根据需求自定义参数。
void OnRecognitionResultChanged(NlsEvent* cbEvent, void* cbParam) {
    ParamCallBack* tmpParam = (ParamCallBack*)cbParam;
    // 演示如何打印/使用用户自定义参数。
    printf("OnRecognitionResultChanged: %d, %s\n", tmpParam->userId, tmpParam->userInfo);         // 当前任务的task id,方便定位问题,作为和服务端交互的唯一标识建议输出。
    printf("OnRecognitionResultChanged: status code=%d, task id=%s, result=%s\n", cbEvent->getStatusCode(), cbEvent->getTaskId(), cbEvent->getResult());
    // 获取服务端返回的全部信息
    //printf("OnRecognitionResultChanged: response=%s\n", cbEvent->getAllResponse());
}

//@brief SDK在接收到云端返回识别结束消息时,其线程上报Completed事件。
//@note 上报Completed事件之后,SDK内部会关闭识别连接通道。此时调用sendAudio会返回-1。请停止发送。
//@param cbEvent 回调事件结构,详情参见nlsEvent.h。
//@param cbParam 回调自定义参数,默认为NULL。可以根据需求自定义参数。
void OnRecognitionCompleted(NlsEvent* cbEvent, void* cbParam) {
    ParamCallBack* tmpParam = (ParamCallBack*)cbParam;
    // 演示如何打印/使用用户自定义参数。
    printf("OnRecognitionCompleted: %d, %s\n", tmpParam->userId, tmpParam->userInfo);
    // 当前任务的task id,方便定位问题,作为和服务端交互的唯一标识建议输出。
    printf("OnRecognitionCompleted: status code=%d, task id=%s, result=%s\n", cbEvent->getStatusCode(), cbEvent->getTaskId(), cbEvent->getResult());
    // 获取服务端返回的全部信息。
    //printf("OnRecognitionCompleted: response=%s\n", cbEvent->getAllResponse());
}

//@brief 识别过程发生异常时,SDK内部线程上报TaskFailed事件。
//@note 上报TaskFailed事件之后,SDK内部会关闭识别连接通道。此时调用sendAudio会返回-1,请停止发送。
//@param cbEvent 回调事件结构,详情参见nlsEvent.h。
//@param cbParam 回调自定义参数,默认为NULL。可以根据需求自定义参数。
//@return
void OnRecognitionTaskFailed(NlsEvent* cbEvent, void* cbParam) {
    ParamCallBack* tmpParam = (ParamCallBack*)cbParam;
    // 演示如何打印/使用用户自定义参数。
    printf("OnRecognitionTaskFailed: %d, %s\n", tmpParam->userId, tmpParam->userInfo);
    // 当前任务的task id,方便定位问题,作为和服务端交互的唯一标识建议输出。
    printf("OnRecognitionTaskFailed: status code=%d, task id=%s, error message=%s\n", cbEvent->getStatusCode(), cbEvent->getTaskId(), cbEvent->getErrorMessage());
    // 获取服务端返回的全部信息。
    //printf("OnRecognitionTaskFailed: response=%s\n", cbEvent->getAllResponse());
}

//@brief 识别结束或发生异常时,SDK会关闭连接通道,其内部线程上报ChannelCloseed事件。
//@param cbEvent 回调事件结构,详见nlsEvent.h。
//@param cbParam 回调自定义参数,默认为NULL。可以根据需求自定义参数。
void OnRecognitionChannelClosed(NlsEvent* cbEvent, void* cbParam) {
    ParamCallBack* tmpParam = (ParamCallBack*)cbParam;
    // 演示如何打印/使用用户自定义参数。
    printf("OnRecognitionChannelClosed: %d, %s\n", tmpParam->userId, tmpParam->userInfo);         // 获取服务端返回的全部信息。
    printf("OnRecognitionChannelClosed: response=%s\n", cbEvent->getAllResponse());
    delete tmpParam;    //识别流程结束,释放回调参数
}

void* pthreadFunction(void* arg) {
    int sleepMs = 0;
    ParamCallBack *cbParam = NULL;
    //初始化自定义回调参数,以下两变量仅作为示例表示参数传递,在示例中不起任何作用。
    //回调参数在堆中分配之后,SDK在销毁request对象时会一并销毁,外界无需再释放。
    cbParam = new ParamCallBack; 
    cbParam->userId = rand() % 100;
    strcpy(cbParam->userInfo, "User.");
    // 0:从自定义线程参数中获取token,配置文件等参数。
    ParamStruct *tst = (ParamStruct *) arg; 
    if (tst == NULL) {
        printf("arg is not valid\n"); 
        return NULL;
    } 
    // 打开音频文件,获取数据。
    std::ifstream fs;
    fs.open(tst->fileName.c_str(), std::ios::binary | std::ios::in);
    if (!fs) {
        printf("%s isn't exist..\n", tst->fileName.c_str());
        return NULL;
    }
    //1: 创建一句话识别SpeechRecognizerRequest对象。
    SpeechRecognizerRequest *request = NlsClient::getInstance()->createRecognizerRequest();
    if (request == NULL) {
        printf("createRecognizerRequest failed\n");
        return NULL;
    }
    request->setOnRecognitionStarted(OnRecognitionStarted, cbParam);        // 设置start()成功回调函数
    request->setOnTaskFailed(OnRecognitionTaskFailed, cbParam);             // 设置异常识别回调函数
    request->setOnChannelClosed(OnRecognitionChannelClosed, cbParam);       // 设置识别通道关闭回调函数
    request->setOnRecognitionResultChanged(OnRecognitionResultChanged, cbParam); // 设置中间结果回调函数
    request->setOnRecognitionCompleted(OnRecognitionCompleted, cbParam);    // 设置识别结束回调函数
    request->setAppKey(tst->appkey.c_str());        // 设置appKey。必填参数。
    request->setFormat("pcm");    // 设置音频数据编码格式。可选参数,目前支持PCM/OPUS,默认为PCM。
    request->setSampleRate(SAMPLE_RATE);            // 设置音频数据采样率。可选参数,目前支持16000/8000。默认为16000。
    request->setIntermediateResult(true);           // 设置是否返回中间识别结果。可选参数,默认false。
    request->setPunctuationPrediction(true);        // 设置是否在后处理中添加标点。可选参数,默认false。
    request->setInverseTextNormalization(true);     // 设置是否在后处理中执行ITN。可选参数,默认false。
    //request->setEnableVoiceDetection(true);       //是否启动语音检测。可选,默认为False。
    //允许的最大开始静音。可选,单位是毫秒。超出后服务端将会发送RecognitionCompleted事件,结束本次识别。注意:需要先设置enable_voice_detection为true。
    //request->setMaxStartSilence(5000);
    //允许的最大结束静音。可选,单位是毫秒。超出后服务端将会发送RecognitionCompleted事件,结束本次识别。注意:需要先设置enable_voice_detection为true。
    //request->setMaxEndSilence(800);
    //request->setCustomizationId("TestId_123"); //定制语言模型id,可选。
    //request->setVocabularyId("TestId_456"); //定制泛热词id,可选。
    // 用于传递某些定制化、高级参数设置,参数格式为JSON格式:{"key": "value"}。
    //request->setPayloadParam("{\"vad_model\": \"farfield\"}");
    request->setToken(tst->token.c_str()); // 设置账号校验token。必填参数。

    // 2:start()为异步操作。成功返回started事件,失败返回TaskFailed事件。
    if (request->start() < 0) {
        printf("start() failed. may be can not connect server. please check network or firewalld\n");
        NlsClient::getInstance()->releaseRecognizerRequest(request); // start()失败,释放request对象。
        return NULL;
    }
    while (!fs.eof()) {
        uint8_t data[FRAME_SIZE] = {0};
        fs.read((char *) data, sizeof(uint8_t) * FRAME_SIZE); 
        size_t nlen = fs.gcount();
        if (nlen <= 0) {
            continue;
        }

        // 3: 发送音频数据。sendAudio为异步操作,返回-1表示发送失败,需要停止发送。
        int ret = request->sendAudio(data, nlen); 
        if (ret < 0) {
            // 发送失败,退出循环数据发送。
            printf("send data fail.\n"); 
            break;
        } 

        // 语音数据发送控制:
        // 语音数据是实时的,不用sleep控制速率,直接发送即可。
        // 语音数据来自文件(也即本示例代码模拟的语音流发送机制),发送时需要控制速率,使单位时间内发送的数据大小接近单位时间原始语音数据存储的大小。
        sleepMs = getSendAudioSleepTime(nlen, SAMPLE_RATE, 1); // 根据发送数据大小、采样率、数据压缩比来获取sleep时间。
        // 4: 语音数据发送延时控制
        usleep(sleepMs * 1000);
    }

    printf("sendAudio done.\n");
    //5: 关闭音频文件
    fs.close();
    //6: 通知云端数据发送结束
    //stop()为异步操作。失败返回TaskFailed事件。
    request->stop();
    //7: 通知SDK释放request。
    NlsClient::getInstance()->releaseRecognizerRequest(request);
    return NULL;
}

//线程循环识别
//需要调整count值和每次要识别的文件,示例中默认每次识别一个文件。
void* multiRecognize(void* arg) {
    int count = 2;
    while (count > 0) {
        pthreadFunction(arg);
        count--;
    }
     return NULL;
}

// 识别单个音频数据
int speechRecognizerFile(const char* appkey) {
    //获取当前系统时间戳,判断token是否过期。
    std::time_t curTime = std::time(0);
    if (g_expireTime - curTime < 10) {
        printf("the token will be expired, please generate new token by AccessKey-ID and AccessKey-Secret.\n");
        if (-1 == generateToken(g_akId, g_akSecret, &g_token, &g_expireTime)) {
            return -1;
        } 
    }

    ParamStruct pa;
    pa.token = g_token;
    pa.appkey = appkey;
    pa.fileName = "test0.wav";
    pthread_t pthreadId;     // 启动一个工作线程,用于单次识别。
    pthread_create(&pthreadId, NULL, &pthreadFunction, (void *)&pa);     // 启动一个工作线程,用于循环识别。
    // pthread_create(&pthreadId, NULL, &multiRecognize, (void *)&pa);
    pthread_join(pthreadId, NULL);
    return 0;
}

//识别多个音频数据
//SDK多线程指一个音频数据源对应一个线程,非一个音频数据对应多个线程。
//示例代码为同时开启2个线程识别2个文件。
//免费用户并发连接不能超过2个。
#define AUDIO_FILE_NUMS 2
#define AUDIO_FILE_NAME_LENGTH 32
int speechRecognizerMultFile(const char* appkey) {
    //获取当前系统时间戳判断token是否过期。
    std::time_t curTime = std::time(0);
    if (g_expireTime - curTime < 10) {
        printf("the token will be expired, please generate new token by AccessKey-ID and AccessKey-Secret.\n");
        if (-1 == generateToken(g_akId, g_akSecret, &g_token, &g_expireTime)) {
            return -1;
        }
    }
    char audioFileNames[AUDIO_FILE_NUMS][AUDIO_FILE_NAME_LENGTH] = {
        "test0.wav", 
        "test1.wav"
    };
     ParamStruct pa[AUDIO_FILE_NUMS];
    for (int i = 0; i < AUDIO_FILE_NUMS; i ++) {
        pa[i].token = g_token; 
        pa[i].appkey = appkey;
        pa[i].fileName = audioFileNames[i]; 
    } 
    std::vector<pthread_t> pthreadId(AUDIO_FILE_NUMS);     // 启动2个工作线程,同时识别2个音频文件。
    for (int j = 0; j < AUDIO_FILE_NUMS; j++) {
        pthread_create(&pthreadId[j], NULL, &pthreadFunction, (void *)&(pa[j]));
    }
    for (int j = 0; j < AUDIO_FILE_NUMS; j++) {
        pthread_join(pthreadId[j], NULL);
    }
    return 0; 
}

int main(int arc, char* argv[]) {
    if (arc < 4) {
        printf("params is not valid. Usage: ./demo <your appkey> <your AccessKey ID> <your AccessKey Secret>\n"); 
         return -1;
    }
    std::string appkey = argv[1];
    g_akId = argv[2];
    g_akSecret = argv[3];
    // 根据需要设置SDK输出日志。可选,此处表示SDK日志输出至log-recognizer.txt。LogDebug表示输出所有级别日志,支持LogInfo、LogWarning、LogError。400表示单个文件400MB。
    int ret = NlsClient::getInstance()->setLogConfig("log-recognizer", LogDebug, 400);
    if (-1 == ret) {
        printf("set log failed.\n");
        return -1;
    }
    //启动工作线程
    NlsClient::getInstance()->startWorkThread(4);
    // 识别单个音频数据
    speechRecognizerFile(appkey.c_str());     // 并发识别多个音频数据
    //speechRecognizerMultFile(appkey.c_str());
    // 所有工作完成,进程退出前,释放nlsClient。请注意releaseInstance()非线程安全。
    NlsClient::releaseInstance();
    return 0;
}

常见问题

C++ SDK中的speechRecognizerDemo.cpp中的g_akid和g_akSecret在哪里获取?

请参见准备账号

C++ SDK一句话识别调用stop后,返回错误回调状态码40000004该如何解决?提示“{"header":{"namespace":"Default","name":"TaskFailed","status":40000004,"message_id":"xxxxxxxxxxxxxxxxxxxxxxxxx","task_id":"xxxxxxxxxxxxxxxxxxxxxxxxx","status_text":"Gateway:IDLE_TIMEOUT:Websocket session is idle for too long time, the last directive is 'StopRecognition'!"}}”

可能是服务端瞬间收到大量请求导致的单个实例无法及时处理,建议重试。

为什么连接不到framework?

framework中代码采用Objective-C和C++混合编写而成,所以需要使用.mm后缀文件进行调用,同时请确保工程的头文件路径与库文件路径设置正确。

C++ SDK(3.0及以上版本)使用语音合成和语音识别功能,能提高 GCC5.0以上的编译版本吗

可以。Linux下支持GCC 4.8.5或以上版本。目前已验证且顺利编译运行的GCC版本包括4.8.5、5.5.0、8.4.0。

C++ SDK ASR请求有DNS解析失败的情况导致异常,报错“ali-recog-skd.log:AliSpeech_C++SDK(ERROR): GetInetAddressByHostname:252 DNS: resolved timeout.ali-recog-skd.log:AliSpeech_C++SDK(ERROR): start:76 start failed: DNS: resolved timeout..unimrcpserver_current.log: [ERROR] [[./ali/AliRecogChannel.cpp:772,onTaskFailed]]Ali Task start failed Msg :DNS: resolved timeout., start finised."”如何解决?

  • 旧版(3.0及以前版本):在高并发或者电脑DNS忙碌的情况下容易出现以上问题,建议您更新到3.1.X版本,或进行再次重启请求。

  • 新版(3.0及以后版本):已经对此问题进行防御,若仍然偶现此问题,则为电脑DNS忙碌,需要再次重启请求。

C++ SDK(新)集成到其他项目中时,将CMakeLists.txt中的add_definitions(-D_GLIBCXX_USE_CXX11_ABI=0) 修改为add_definitions(-D_GLIBCXX_USE_CXX11_ABI=1)后编译不通过如何解决?

除了CMakeLists.txt,全工程都需要修改该参数,例如config/linux.thirdparty.debug.cmakeconfig/linux.thirdparty.release.cmake,请在全目录搜索_GLIBCXX_USE_CXX11_ABI进行修改。

C++ SDK在Windows上使用,报错缺少nlsCommonSdk.dll如何解决?

3.1及以后版本无nlsCommonSdk.dll。

C++ SDK旧版NlsSdkCpp2.0和新版NlsSdkCpp3.X的区别是什么?

NlsSdkCpp2.0版本的SDK每一个请求为一个线程,且接口为同步接口。

NlsSdkCpp3.X版本的SDK内部由第三方库libevent统一处理事件消息,并发性能更强,且接口为异步接口。

C++版的SDK不支持实现C11规范吗? 现在导致项目无法链接SDK该如何解决?

工程默认为_GLIBCXX_USE_CXX11_ABI=0,全工程都需要修改该参数,请在全目录搜索_GLIBCXX_USE_CXX11_ABI进行修改。

C++ SDK测试Demo成功,集成项目报错,DNS解析失败,报错“nls-gateway.cn-shanghai.aliyuncs.com dns failed: nodename nor servname provided, or not known”如何解决?

  1. SDK中会查看当前设备开启的所有协议族(IPv4、IPv6)进行DNS解析请求,nls-gateway.cn-shanghai.aliyuncs.com不支持 IPv6,返回解析错误,从而导致SDK DNS解析失败退出。可禁用当前设备的IPv6协议族,后续CppSdk产品改进对这方面进行可配置处理。

  2. 建议您升级到3.1.12及以后版本。

C++ SDK测试Demo可以成功,集成项目报错,网络链接失败,报错“[dnsEventCallback:465]Node:0x7f087c001030 ai_canonname: nls-gateway.cn-shanghai.aliyuncs.com.gds.alibabadns.com[dnsEventCallback:477]Node:0x7f087c001030 IpV4:106.15.XX.XX[connectProcess:1329]Node:0x7f087c001030 sockFd:41[connectProcess:1347]Node:0x7f087c001030 new Socket ip:106.15.XX.XX port:443 Fd:41.[socketConnect:1458]Node:0x7f087c001030 Connect failed:Network is unreachable. retry...”如何解决?

以上现象为无法连接网络,查看日志发现DNS域名解析出来的IP链接不成功,进一步通过Ping判断网络不通。由于本地拦截DNS解析,导致SDK内部libeventevdns_getaddrinfo获得错误的IP。

解决办法:

  • 3.1.12版本以前可将evdns_getaddrinfo()手动替换成系统的getaddrinfo()。

  • 3.1.12版本可在CMakeLists.txt中修改add_definitions(-DNLS_USE_NATIVE_GETADDRINFO)

  • 3.1.12及以后版本增加setDirectHost()接口,您可以在SDK外部进行DNS解析,获取正确IP后通过该接口设入。

  • 3.1.13及以后版本已解决此问题,若运行时仍存在上述问题,建议调用接口setUseSysGetAddrInfo(true)。

C++ SDK语音合成时传入的文本没有采用UTF-8编码会有什么错误信息?

如果传入的文本没有采用UTF-8编码,在文本中含有中文字符时,语音合成SDK调用start函数会失败,返回错误信息Socket recv failed, errorCode: 0。错误码为0表示服务端已经关闭了连接,此时应检查传入的文本是否采用UTF-8编码。

阿里云首页 智能语音交互 相关技术圈