PAI提供已经训练好的语音智能处理模型,您可以直接部署该模型,从而进行在线服务调用。本文介绍中文语音识别模型和中文语音属性分类模型的输入格式、输出格式及测试示例。

使机器理解人类的语言是人工智能最重要的目标之一,将人类语言转换为文本是实现该目标的第一个重要过程。语音智能识别ASR(Automatic Speech Recognition)是人工智能、语言学及声学等学科融合发展的重要技术,即给定人类语言的音频输入,ASR技术自动将音频转写为文本。

在语音识别的基础上,语音理解(Speech Understanding)可以采用人工智能技术分析音频特征,对输入的语音进行深度理解。PAI提供自动语音识别和语音理解的服务部署流程,并提供中文语音识别 、中文语音属性分类等语音理解模型供您在线使用。

ModelHub登录入口

您可以通过如下方法进入ModelHub:
  1. 登录PAI控制台
  2. 在左侧导航栏,单击模型管理及优化
  3. PAI模型管理页面,单击ModelHub页签。

中文语音识别模型

  • 模型介绍
    PAI-ModelHub提供端到端的Wav2Letter语音识别模型进行中文语音识别,该模型的结构如下图所示。语音识别模型结构
  • 输入格式
    输入数据为JSON格式字符串,包含urlplay_duration字段。其中url对应的value为输入音频或视频的URL,play_duration对应的value为需要转写的音频或视频的前play_duration微秒。如果未指定play_duration,则默认为音频或视频的全部长度。具体格式如下所示。
    {
      "input": {
        "url": "输入音频或视频的URL",
        "play_duration": "输入音频或视频的长度"
      }
    }
  • 输出格式
    输出数据是JSON格式的KV对,其中Key表示输入语音数据的起始时间戳(单位为微秒),Value表示输出的ASR转写内容。该模型支持输出的中文字表约为4000个常见汉字,如果预测结果为词表外的字,则使用星号(*)代替。短句使用英文分号(;)分隔。具体格式如下所示。
    {
      "0": "转写文本内容1",
      "500000000": "转写文本内容2",
      "1000000000": "转写文本内容3"
    }
  • 示例
    例如,为该模型输入如下测试数据。
    {
      "input": {
        "url": "http://pai-vision-data-sh.oss-cn-shanghai-internal.aliyuncs.com/tmp/5000563****.mp4",
        "play_duration": "39000000"
      }
    }
    系统输出如下结果。
    {
      "0": ";\u5206\u6d3b\u7845\u85fb\u571f\u9020\u8131;\u6709\u5b54\u901f\u5ea6\u5927\u5438\u6536\u6027\u5f3a\u51c0\u5316\u7a7a\u6c14\u7684\u7279\u70b9;\u53ef\u653e\u7f6e\u624b\u5de5\u6d01\u9762\u9020\u5f62\u517d\u9020\u4e0d\u6613\u9020\u7b49;\u80a5\u7682\u653e\u7f6e\u540e\u51e0\u79d2\u5185\u5c31\u80fd\u77ac\u95f4\u5438\u6536",
      "20031996": "\u7531\u4e8e\u80a5\u7682\u4f7f\u7528\u540e\u6709\u53d8\u8f6f\u7684\u7279\u8d28;\u6240\u4ee5\u7845\u85fb\u4e3b\u9020\u79d1\u80fd\u5b8c\u6574\u4fdd\u62a4\u80a5\u7682;\u4e14\u4e0d\u7528\u62c5\u5fc3\u7682\u6c34\u5916\u6d41;\u666e\u901a\u6ca5\u6c34\u9020\u51fa\u5e95\u90e8\u7684\u683c\u81ea\u4f1a\u5bfc\u81f4\u80a5\u7682\u53d8\u5f62\u53d8\u5c0f;\u7682\u6c34\u8fd8\u4f1a\u7559\u7684\u5012\u4f4f\u6ce5"
    }
    在下游应用中,将输出的Unicode重新解码成汉字即可。

中文语音属性分类模型

  • 模型介绍
    PAI-ModelHub提供端到端的TDNN语音分类模型进行中文语音属性分类,该模型的结构如下图所示。中文语音属性分类模型结构
  • 输入格式
    输入数据是JSON格式字符串,包含url字段和play_duration字段。其中,url对应的value为输入音频或视频的URL,play_duration指需要转写的音频或视频的前play_duration微秒。如果不指定play_duration,则默认为音频或视频的全部长度。具体格式如下。
    {
      "input": {
        "url": "输入音频或视频的URL",
        "play_duration": "输入音频或视频的长度"
      }
    }
  • 输出格式
    输出数据是JSON格式的KV对,其中Key表示输入语音数据的起始时间戳(单位为微秒),Value表示输出的中文语音属性分类预测标签。格式如下所示。
    {
      "0": "{\"class\":\"预测标签\"}\n",
      "500000000": "{\"class\":\"预测标签\"}\n",
      "1000000000": "{\"class\":\"预测标签\"}\n"
    }
  • 示例
    例如,为该模型输入如下测试数据。
    {
      "input": {
        "url": "http://pai-vision-data-sh.oss-cn-shanghai-internal.aliyuncs.com/tmp/5000563****.mp4",
        "play_duration": "39000000"
      }
    }
    系统输出如下结果。
    {
      "0": "{\"class\":\"\u5973\u58f0\"}\n", 
      "20031996": "{\"class\":\"预测标签\"}\n"
    }
    在下游应用中,将输出的Unicode重新解码成汉字,即为对应的预测标签。