在ModelHub,PAI提供已经训练好的语音智能处理模型,您可以直接部署该模型,从而进行在线服务调用。本文介绍PAI提供的语音智能处理类模型的输入格式、输出格式及测试示例。

背景信息

使机器理解人类的语言是人工智能最重要的目标之一,将人类语言转换为文本是实现该目标的第一个重要过程。语音智能识别ASR(Automatic Speech Recognition)是人工智能、语言学及声学等学科融合发展的重要技术,即给定人类语言的音频输入,ASR技术自动将音频转写为文本。

在语音识别的基础上,语音理解(Speech Understanding)可以采用人工智能技术分析音频特征,对输入的语音进行深度理解。PAI提供自动语音识别和语音理解的服务部署流程,并提供以下语音理解模型供您在线使用。
模型 功能
通用中文语音识别模型(极速版) 自动识别带有中文语音的音频或视频中的文字。
通用中文语音识别模型(Transformer版) 端到端的Transformer语音识别模型,实现通用场景下的中文语音识别。该模型能够对音频或视频中的中文语音进行文字自动识别。
电商直播中文语音识别模型(极速版) 适用于中文电商直播场景,能够自动识别该场景带有中文语音的音频或视频中的文字。
电商直播中文语音识别模型(Transformer版) 端到端的Transformer语音识别模型用于电商直播场景下的中文语音识别。该模型能够对音频或者视频中的文字进行自动识别,与通用的中文语音识别模型不同,这一模型特别适配中文电商直播的场景。
中文语音向量化模型 该模型能够将带有中文语音的音频或视频,通过自监督学习技术,抽取稠密的向量化表示,并将其输出。
英文语音向量化模型 该模型能够将带有英文语音的音频或视频,通过自监督学习技术,抽取稠密的向量化表示,并将其输出。
中文说话人语音属性分类模型 针对中文音频或视频片段,预测说话人的属性。
中文语音检测模型 识别指定音频中是否包含中文语音。
背景音乐检测模型 识别指定音频中是否包含背景音乐。

ModelHub登录入口

您可以通过如下方法进入ModelHub:
  1. 登录PAI控制台
  2. 在左侧导航栏,选择AI资产管理 > 模型管理
  3. PAI模型管理页面,单击ModelHub页签。

通用中文语音识别模型(极速版)

  • 模型介绍
    PAI提供端到端的Wav2Letter语音识别模型,能够自动识别带有中文语音的音频或视频中的文字,即能够实现通用场景下的中文语音识别。该模型的结构如下图所示。语音识别模型结构
  • 输入格式
    输入数据为JSON格式字符串,包含urlplay_duration字段。其中url对应的value为输入音频或视频的URL,play_duration对应的value为需要转写的音频或视频的前play_duration微秒。如果未指定play_duration,则默认为音频或视频的全部长度。具体格式如下所示。
    {
      "input": {
        "url": "输入音频或视频的URL",
        "play_duration": "输入音频或视频的长度"
      }
    }
  • 输出格式
    输出数据是JSON格式的KV对,其中Key表示输入语音数据的起始时间戳(单位为微秒),Value表示输出的ASR转写内容。该模型支持输出的中文字表约为4000个常见汉字,如果预测结果为词表外的字,则使用星号(*)代替。短句使用英文分号(;)分隔。具体格式如下所示。
    {
      "0": "转写文本内容1",
      "500000000": "转写文本内容2",
      "1000000000": "转写文本内容3"
    }
  • 示例
    例如,为该模型输入如下测试数据。
    {
      "input": {
        "url": "http://pai-vision-data-sh.oss-cn-shanghai-internal.aliyuncs.com/tmp/5000563****.mp4",
        "play_duration": "39000000"
      }
    }
    系统输出如下类似结果。
    {
      "0": ";\u5206\u6d3b\u7845\u85fb\u571f\u9020\u8131;\u6709\u5b54\u901f\u5ea6\u5927\u5438\u6536\u6027\u5f3a\u51c0\u5316\u7a7a\u6c14\u7684\u7279\u70b9;\u53ef\u653e\u7f6e\u624b\u5de5\u6d01\u9762\u9020\u5f62\u517d\u9020\u4e0d\u6613\u9020\u7b49;\u80a5\u7682\u653e\u7f6e\u540e\u51e0\u79d2\u5185\u5c31\u80fd\u77ac\u95f4\u5438\u6536",
      "20031996": "\u7531\u4e8e\u80a5\u7682\u4f7f\u7528\u540e\u6709\u53d8\u8f6f\u7684\u7279\u8d28;\u6240\u4ee5\u7845\u85fb\u4e3b\u9020\u79d1\u80fd\u5b8c\u6574\u4fdd\u62a4\u80a5\u7682;\u4e14\u4e0d\u7528\u62c5\u5fc3\u7682\u6c34\u5916\u6d41;\u666e\u901a\u6ca5\u6c34\u9020\u51fa\u5e95\u90e8\u7684\u683c\u81ea\u4f1a\u5bfc\u81f4\u80a5\u7682\u53d8\u5f62\u53d8\u5c0f;\u7682\u6c34\u8fd8\u4f1a\u7559\u7684\u5012\u4f4f\u6ce5"
    }
    在下游应用中,将输出的Unicode重新解码成汉字即可。

通用中文语音识别模型(Transformer版)

  • 模型介绍
    在ModelHub,PAI提供了端到端的Transformer语音识别模型,实现通用场景下的中文语音识别。该模型能够对音频或视频中的中文语音进行文字自动识别。虽然模型的推理速度比wav2letter模型慢,但是该模型具有更高的精度。该模型结构如下所示。用中文语音识别模型Transformer版模型结构
  • 输入格式
    输入数据是JSON格式字符串,包含url字段和play_duration字段。其中,url对应的value为输入音频或视频的URL,play_duration指需要转写的音频或者视频的前play_duration微秒。如果不填写play_duration,则默认为音频或视频的全部长度。输入格式如下。
    {
      "input": {
        "url": "输入音频或视频的URL",
        "play_duration": "输入音频或视频的长度"
      }
    }
  • 输出格式
    输出数据是JSON格式的KV对,其中Key为输入语音数据的起始时间戳(单位为微秒),Value为输出的ASR转写内容。该模型支持输出的中文字表约为4000个常见汉字,如果预测结果为词表外的字,则使用星号(*)代替。短句使用英文分号(;)分隔。具体格式如下所示。
    {
      "0": "转写文本内容1",
      "500000000": "转写文本内容2",
      "1000000000": "转写文本内容3"
    }
  • 示例
    例如,为该模型输入如下测试数据。
    {
      "input": {
        "url": "http://pai-vision-data-sh.oss-cn-shanghai-internal.aliyuncs.com/tmp/5000563****.mp4",
        "play_duration": "39000000"
      }
    }
    系统输出如下类似结果。
    {
      "0": ";\u5206\u6d3b\u7845\u85fb\u571f\u9020\u8131;\u6709\u5b54\u901f\u5ea6\u5927\u5438\u6536\u6027\u5f3a\u51c0\u5316\u7a7a\u6c14\u7684\u7279\u70b9;\u53ef\u653e\u7f6e\u624b\u5de5\u6d01\u9762\u9020\u5f62\u517d\u9020\u4e0d\u6613\u9020\u7b49;\u80a5\u7682\u653e\u7f6e\u540e\u51e0\u79d2\u5185\u5c31\u80fd\u77ac\u95f4\u5438\u6536",
      "20031996": "\u7531\u4e8e\u80a5\u7682\u4f7f\u7528\u540e\u6709\u53d8\u8f6f\u7684\u7279\u8d28;\u6240\u4ee5\u7845\u85fb\u4e3b\u9020\u79d1\u80fd\u5b8c\u6574\u4fdd\u62a4\u80a5\u7682;\u4e14\u4e0d\u7528\u62c5\u5fc3\u7682\u6c34\u5916\u6d41;\u666e\u901a\u6ca5\u6c34\u9020\u51fa\u5e95\u90e8\u7684\u683c\u81ea\u4f1a\u5bfc\u81f4\u80a5\u7682\u53d8\u5f62\u53d8\u5c0f;\u7682\u6c34\u8fd8\u4f1a\u7559\u7684\u5012\u4f4f\u6ce5"
    }
    在下游应用中,将输出的Unicode重新解码成汉字即可。

电商直播中文语音识别模型(极速版)

  • 模型介绍

    PAI提供端到端的Wav2Letter语音识别模型,能够自动识别带有中文语音的音频或视频中的文字。该模型与通用中文语音识别模型(极速版)不同,特别适配了中文电商直播场景,实现该场景下的中文语音识别。电商直播中文语音识别模型(极速版)的结构与通用中文语音识别模型(极速版)的结构相同。

  • 输入格式
    输入数据为JSON格式字符串,包含urlplay_duration字段。其中url对应的value为输入音频或视频的URL,play_duration对应的value为需要转写的音频或视频的前play_duration微秒。如果未指定play_duration,则默认为音频或视频的全部长度。具体格式如下所示。
    {
      "input": {
        "url": "输入音频或视频的URL",
        "play_duration": "输入音频或视频的长度"
      }
    }
  • 输出格式
    输出数据是JSON格式的KV对,其中Key表示输入语音数据的起始时间戳(单位为微秒),Value表示输出的ASR转写内容。该模型支持输出的中文字表比通用中文语音识别模型(极速版)大,约为6000个常见汉字,如果预测结果为词表外的字,则使用星号(*)代替。短句使用英文分号(;)分隔。具体格式如下所示。
    {
      "0": "转写文本内容1",
      "500000000": "转写文本内容2",
      "1000000000": "转写文本内容3"
    }
  • 示例
    例如,为该模型输入如下测试数据。
    {
      "input": {
        "url": "https://pai-vision-data-sh.oss-cn-shanghai-internal.aliyuncs.com/chengyu.wcy/tblive_sample/example1.wav",
      }
    }
    系统输出如下类似结果。
    {
      "0": "\u800c\u4e14\u8fdb\u4e00\u6b65\u5f3a\u5316\u4e86\u4ea7\u54c1\u7684\u4e00\u4e2a\u4fee\u590d\u7279\u6548;\u4fee\u590d\u529f\u6548\u4f1a\u66f4\u597d;\u800c\u4e14\u5b83\u6bd4\u91d1\u80f6\u7684\u8bdd\u662f\u66f4\u52a0\u6e29\u548c;\u76ae\u80a4\u4e0d\u8010\u53d7\u79ef\u7387\u63a5\u8fd1\u4e3a\u96f6\u4e5f\u5c31\u662f\u8bf4;\u554a\u4eca\u5929\u665a\u4eca\u5929\u51cc\u6668\u53d1\u8d27"
    }

电商直播中文语音识别模型(Transformer版)

  • 模型介绍

    PAI提供端到端的Transformer语音识别模型用于电商直播场景下的中文语音识别。该模型能够对音频或者视频中的文字进行自动识别,与通用的中文语音识别模型不同,这一模型特别适配中文电商直播的场景。该模型结构与通用中文语音识别模型(Transformer版)相同。

  • 输入格式
    输入数据为JSON格式字符串,包含urlplay_duration字段。其中url对应的value为输入音频或视频的URL,play_duration对应的value为需要转写的音频或视频的前play_duration微秒。如果未指定play_duration,则默认为音频或视频的全部长度。具体格式如下所示。
    {
      "input": {
        "url": "输入音频或视频的URL",
        "play_duration": "输入音频或视频的长度"
      }
    }
  • 输出格式
    输出数据是JSON格式的KV对,其中Key表示输入语音数据的起始时间戳(单位为微秒),Value表示输出的ASR转写内容。该模型支持输出的中文字表比通用中文语音识别模型(极速版)大,约为6000个常见汉字,如果预测结果为词表外的字,则使用星号(*)代替。短句使用英文分号(;)分隔。具体格式如下所示。
    {
      "0": "转写文本内容1",
      "500000000": "转写文本内容2",
      "1000000000": "转写文本内容3"
    }
  • 示例
    例如,为该模型输入如下测试数据。
    {
      "input": {
        "url": "http://pai-vision-data-sh.oss-cn-shanghai-internal.aliyuncs.com/tmp/5000563****.mp4",
      }
    }
    系统输出如下类似结果。
    {
      "0": "\u5438\u6536\u6027\u5f3a;\u51c0\u5316\u7a7a\u6c14\u7684\u7279\u70b9;\u53ef\u653e\u7f6e\u624b\u5de5\u6d01\u9762\u7682;\u5438\u6536\u6027\u5f3a;\u51c0\u5316\u7a7a\u6c14\u7684\u7279\u70b9;\u53ef\u653e\u7f6e\u624b\u5de5\u6d01\u9762\u7682;\u5438\u6536\u7682;\u6c90\u6d74\u7682",
      "20031996": "\u7531\u4e8e\u80a5\u7682\u4f7f\u7528\u540e\u6709\u53d8\u8f6f\u7684\u7279\u8d28;\u6240\u4ee5;\u7845\u85fb\u571f\u7682\u79d1\u80fd\u5b8c\u6574\u4fdd\u62a4\u80a5\u7682;\u4e14\u4e0d\u7528\u62c5\u5fc3\u7682\u6c34\u5916\u6d41;\u666e\u901a\u5229\u6c34\u7682\u6258\u5e95\u90e8\u7684\u683c\u5b50\u4f1a\u5bfc\u81f4\u80a5\u7682",
      "40063991": "\u9020\u4f5c\u529f\u80fd\u591a\u6837\u53ef\u5f53\u5bc6\u5c01\u76d6\u673a\u4f4d\u53a8\u5e08\u4e5f\u53ef\u5f53\u676f\u57ab\u53ef\u9694\u70ed\u5feb\u901f\u5438\u6c34\u5012\u6389\u5806\u79ef\u7684\u9020\u4f5c\u53ea\u4f7f\u7528\u8fdc\u6b65\u6cbe\u53d6\u9002\u91cf\u767d\u918b\u6216\u7802\u7eb8\u64e6\u62ed"
    }

中文语音向量化模型

  • 模型介绍
    为了支持音频个性化分析,PAI提供了端到端的Mockingjay语音自监督学习模型用于中文语音表示学习。该模型能够将带有中文语音的音频或视频,通过自监督学习技术,抽取稠密的向量化表示,并将其输出。模型结构如下所示。模型结构
  • 输入格式
    输入数据是JSON格式字符串,仅包含url字段,对应的value为输入音频或视频的URL,具体格式如下。
    {
      "input": {
        "url": "输入音频或视频的URL",
      }
    }
  • 输出格式
    输出数据为一个由向量特征构成的字符串,各特征之间使用半角逗号(,)分隔。具体格式如下所示。
    "向量维度1,向量维度2,向量维度3,...,向量维度XXX"
  • 示例
    例如,为该模型输入如下测试数据。
    {
      "input": {
        "url": "http://pai-vision-data-sh.oss-cn-shanghai-internal.aliyuncs.com/tmp/5000563****.mp4",
      }
    }
    系统输出如下类似结果。
    "0.5291504,-0.47187772,-0.7588605,...,-0.48115134,1.7070293"

英文语音向量化模型

  • 模型介绍

    为了支持音频个性化分析,PAI提供了端到端的Mockingjay语音自监督学习模型用于英文语音表示学习。该模型能够将带有英文语音的音频或视频,通过自监督学习技术,抽取稠密的向量化表示,并将其输出。模型结构与中文语音向量化模型的结构相同,详情请参见中文语音向量化模型

  • 输入格式
    输入数据是JSON格式字符串,仅包含url字段,对应的value为输入音频或视频的URL,具体格式如下。
    {
      "input": {
        "url": "输入音频或视频的URL",
      }
    }
  • 输出格式
    输出数据为一个由向量特征构成的字符串,各特征之间使用半角逗号(,)分隔。具体格式如下所示。
    "向量维度1,向量维度2,向量维度3,...,向量维度XXX"
  • 示例
    例如,为该模型输入如下测试数据。
    {
      "input": {
        "url": "http://pai-vision-data-sh.oss-cn-shanghai-internal.aliyuncs.com/tmp/5000563****.mp4",
      }
    }
    系统输出如下类似结果。
    "0.29688737,0.78769636,0.4556097,...,0.8212023,0.5032284"

中文说话人语音属性分类模型

  • 模型介绍
    PAI提供端到端的TDNN语音分类模型进行中文说话人的语音属性分类,能够预测中文音频或视频片段中说话人的属性。该模型的结构如下图所示。中文语音属性分类模型结构
  • 输入格式
    输入数据是JSON格式字符串,包含url字段和play_duration字段。其中,url对应的value为输入音频或视频的URL,play_duration指需要转写的音频或视频的前play_duration微秒。如果不指定play_duration,则默认为音频或视频的全部长度。具体格式如下。
    {
      "input": {
        "url": "输入音频或视频的URL",
        "play_duration": "输入音频或视频的长度"
      }
    }
  • 输出格式
    输出数据是JSON格式的KV对,其中Key表示输入语音数据的起始时间戳(单位为微秒),Value表示输出的预测标签。格式如下所示。
    {
      "0": "{\"class\":\"预测标签\"}\n",
      "500000000": "{\"class\":\"预测标签\"}\n",
      "1000000000": "{\"class\":\"预测标签\"}\n"
    }
  • 示例
    例如,为该模型输入如下测试数据。
    {
      "input": {
        "url": "http://pai-vision-data-sh.oss-cn-shanghai-internal.aliyuncs.com/tmp/5000563****.mp4",
        "play_duration": "39000000"
      }
    }
    系统输出如下类似结果。
    {
      "0": "{\"class\":\"预测标签\"}\n",  
      "20031996": "{\"class\":\"预测标签\"}\n"
    }
    在下游应用中,将输出的Unicode重新解码成汉字,即为对应的预测标签。

中文语音检测模型

  • 模型介绍

    PAI提供端到端的TDNN语音分类模型进行中文语音检测,能够识别指定音频中是否包含中文语音。该模型的结构与中文说话人语音属性分类模型相同。

  • 输入格式
    输入数据是JSON格式字符串,包含url字段和play_duration字段。其中,url对应的value为输入音频或视频的URL,play_duration指需要转写的音频或视频的前play_duration微秒。如果不指定play_duration,则默认为音频或视频的全部长度。具体格式如下。
    {
      "input": {
        "url": "输入音频或视频的URL",
        "play_duration": "输入音频或视频的长度"
      }
    }
  • 输出格式
    输出数据是JSON格式的KV对,其中Key表示输入语音数据的起始时间戳(单位为微秒),Value表示输出的预测标签(包括“是”和“否”两种预测标签。预测为“是”,表示该片段存在中文语音)。格式如下所示。
    {
      "0": "{\"class\":\"预测标签\"}\n",
      "500000000": "{\"class\":\"预测标签\"}\n",
      "1000000000": "{\"class\":\"预测标签\"}\n"
    }
  • 示例
    例如,为该模型输入如下测试数据。
    {
      "input": {
        "url": "http://pai-vision-data-sh.oss-cn-shanghai-internal.aliyuncs.com/tmp/5000563****.mp4",
      }
    }
    系统输出如下类似结果。
    {
      "0": "{\"class\":\"u662f\"}\n", 
      "20031996": "{\"class\":\"u662f\"}\n", 
      "40063991": "{\"class\":\"\u5426\"}\n"
    }
    在下游应用中,将输出的Unicode重新解码成汉字,即为对应的预测标签。

背景音乐检测模型

  • 模型介绍

    PAI提供端到端的TDNN语音分类模型进行背景音乐检测,能够识别指定音频中是否包含背景音乐。该模型的结构与中文说话人语音属性分类模型相同。

  • 输入格式
    输入数据是JSON格式字符串,包含url字段和play_duration字段。其中,url对应的value为输入音频或视频的URL,play_duration指需要转写的音频或视频的前play_duration微秒。如果不指定play_duration,则默认为音频或视频的全部长度。具体格式如下。
    {
      "input": {
        "url": "输入音频或视频的URL",
        "play_duration": "输入音频或视频的长度"
      }
    }
  • 输出格式
    输出数据是JSON格式的KV对,其中Key表示输入语音数据的起始时间戳(单位为微秒),Value表示输出的预测标签(包括“是”和“否”两种预测标签。预测为“是”,表示该片段存在背景音乐)。格式如下所示。
    {
      "0": "{\"class\":\"预测标签\"}\n",
      "500000000": "{\"class\":\"预测标签\"}\n",
      "1000000000": "{\"class\":\"预测标签\"}\n"
    }
  • 示例
    例如,为该模型输入如下测试数据。
    {
      "input": {
        "url": "http://pai-vision-data-sh.oss-cn-shanghai-internal.aliyuncs.com/tmp/5000563****.mp4",
      }
    }
    系统输出如下类似结果。
    {
      "0": "{\"class\":\"u662f\"}\n", 
      "20031996": "{\"class\":\"u662f\"}\n", 
      "40063991": "{\"class\":\"\u662f\"}\n"
    }
    在下游应用中,将输出的Unicode重新解码成汉字,即为对应的预测标签。