全部产品

Android SDK(旧版)

更新时间:2020-12-02 15:16:27

本文介绍了如何使用阿里云智能语音服务提供的旧版Android SDK,包括SDK的安装方法及SDK代码示例。请注意,新用户请关注新版Android SDK。

注意

建议您使用新版本Android SDK,本版本后续将不再更新。详情请参见Android SDK

前提条件

  • 首先阅读接口说明,详情请参见接口说明

  • 已在智能语音管控台创建项目并获取Appkey,详情请参见创建项目

  • 已获取智能语音服务访问令牌,详情请参见获取Token

SDK关键接口

  • NlsClient:语音处理客户端,利用该客户端可以进行一句话识别、实时语音识别和语音合成的语音处理任务。该客户端为线程安全,建议全局仅创建一个实例。

  • SpeechTranscriber:代表一次实时语音流识别请求,需要将录制的音频或从文件读取的音频数据,发送给SDK。

  • SpeechTranscriberWithRecorder:代表一次实时语音识别请求,在SpeechTranscriber的基础上内置录音功能,调用更简便。

  • SpeechTranscriberCallback:语音识别回调接口,在获得识别结果、发生错误等事件发生时会触发回调。您可参照demo在回调方法中加入需要的处理逻辑。

  • SpeechTranscriberWithRecorderCallback:语音识别回调接口,在SpeechTranscriberCallback基础上增加了回调语音数据和音频音量的方法。

调用步骤

下面以SpeechTransciberActivity.java为例,为您介绍实时语音识别请求的调用步骤:

  1. 创建NlsClient的实例。

  2. 定义SpeechTranscriberCallback类,根据您的业务需要,处理识别结果或错误情况。

  3. 调用NlsClient.createTranscriberRequest()方法得到SpeechTranscriber的实例。

  4. 设置SpeechTranscriber参数,主要是Access Token和Appkey。

  5. 调用SpeechTranscriber.start()方法启动与云端服务连接。

  6. 采集语音并调用SpeechTranscriber.sendAudio()方法发送至云端服务。

  7. 在回调中处理识别结果或错误。

  8. 调用SpeechTranscriber.stop()方法结束识别。

  9. 如果需要发起新的请求,请重复第3~8步。

  10. 调用NlsClient.release()方法释放客户端实例。

Proguard配置

如果代码使用了混淆,请在proguard-rules.pro中配置:

-keep class com.alibaba.idst.util.*{*;}

代码示例

  1. 创建识别请求。

    // 新建识别回调类
    SpeechTranscriberCallback callback = new MyCallback();
    // 创建识别request
    speechTranscriber = client.createTranscriberRequest(callback);
    speechTranscriber.setToken("");
    speechTranscriber.setAppkey("");
    // 设置返回中间结果
    speechTranscriber.enableIntermediateResult(true);
    // 启动语音识别
    int code = speechTranscriber.start();   
  2. 采集音频并发送给识别服务。

    音频数据也可以是从文件或其他来源获取。如果使用SpeechTranscriberWithRecorder接口,则SDK内部会处理录音并发送数据,此时可以省略该步骤。

    ByteBuffer buf = ByteBuffer.allocateDirect(SAMPLES_PER_FRAME);
    while(sending){
        buf.clear();
        // 采集语音
        int readBytes = mAudioRecorder.read(buf, SAMPLES_PER_FRAME);
        byte[] bytes = new byte[SAMPLES_PER_FRAME];
        buf.get(bytes, 0, SAMPLES_PER_FRAME);
        if (readBytes>0 && sending){
            // 发送语音数据到识别服务
            int code = recognizer.sendAudio(bytes, bytes.length);
            if (code < 0) {
                Log.w(TAG, "Failed to send audio!");
                break;
            }
        }
        buf.position(readBytes);
        buf.flip();
    }
  3. 处理回调结果。

    // 识别到一个新句子开始
    @Override
    public void onSentenceBegin(String msg, int code)
    {
        Log.i(TAG, "Sentence begin");
    }
    // 当前句子识别结束,得到完整的句子文本。
    @Override
    public void onSentenceEnd(final String msg, int code)
    {
        Log.d(TAG,"OnSentenceEnd " + msg + ": " + String.valueOf(code));
    }
    
    // 识别返回中间结果,只有开启相关选项时才会回调。
    @Override
    public void onTranscriptionResultChanged(final String msg, int code)
    {
        Log.d(TAG,"OnTranscriptionResultChanged " + msg + ": " + String.valueOf(code));
    }