EasyASR离线预测(MaxCompute)算法组件可以调用SavedModel模型进行语音识别预测或语音分类预测。本文介绍EasyASR离线预测(MaxCompute)算法组件的配置方法及使用示例。

前提条件

已开通OSS并完成授权,详情请参见开通OSS服务为PAI-Studio授予OSS访问权限

使用限制

仅PAI-Studio 2.0提供该算法组件。

算法简介

EasyASR离线预测(MaxCompute)算法组件支持语音识别和语音分类离线预测功能,您可以通过该组件调用TensorFlow SavedModel进行预测,建议在多机单卡环境下运行该组件。

EasyASR离线预测(MaxCompute)算法组件位于组件库音视觉算法文件夹下的离线模型预测子文件夹。

可视化配置组件

  • 输入
    EasyASR离线预测(MaxCompute)算法组件需要如下两个输入:
    • 存储输入音频URL的MaxCompute表

      EasyASR离线预测(MaxCompute)算法组件前面接一个读数据表组件,并将读数据表组件的输出接入EasyASR离线预测(MaxCompute)组件的左侧输入桩。同时,您需要配置读数据表组件的表名参数为存储输入音频URL的MaxCompute表名。

    • SavedModel格式的模型
      您可以通过以下两种方式配置输入的SavedModel模型:
      • 方法一:通过输入桩配置
        EasyASR离线预测(MaxCompute)算法组件前面接一个EasyASR语音识别训练组件或EasyASR语音分类训练组件,并将该组件的输出接入EasyASR离线预测(MaxCompute)组件的右侧输入桩,即将训练获得的SavedModel直接用于离线预测,如下图所示。输入配置示例
      • 方法二:通过组件参数配置

        直接在配置参数中填写SavedModel的OSS路径,即配置模型路径参数,此时您还需要搭配使用自定义模型参数一起使用,详情请参见下文的组件参数

  • 组件参数
    页签 参数 是否必选 描述 默认值
    参数设置 Buckets 存放待预测音频文件的OSS Bucket,选择Bucket根目录即可。
    使用模型名称 EasyASR离线预测(MaxCompute)算法组件支持使用以下类型的模型进行离线预测:
    • Wav2Letter ASRwav2Letter类型的语音识别模型。
    • Transformer ASRtransformer类型的语音识别模型。
    • 音频分类:语音分类模型。
    Wav2Letter ASR
    使用自定义模型 是否使用自定义模型,支持以下取值:
    • :此时您需要通过输入桩为EasyASR离线预测(MaxCompute)算法组件配置输入的SavedModel模型,详情请参见上文的通过输入桩配置
    • :此时您需要通过模型路径参数为EasyASR离线预测(MaxCompute)算法组件配置输入的SavedModel模型。
    模型路径 使用自定义模型时,配置该参数为SavedModel的OSS路径,例如oss://my_bucket/my_checkpoint_dir/
    ASR词汇表 使用模型名称Wav2Letter ASRTransformer ASR时,需要配置该参数,表示语音识别词汇表的OSS路径。例如oss://my_bucket/w2lplus-small/alphabet4k.txt,其中alphabet4k.txt为词汇表。
    URL列ID 在存储待预测音频URL路径的MaxCompute表中,URL所在列的编号,且从零开始编号。例如在第二列,则该参数取值为1。 0
    音频特征维度 音频LogFBank特征的维度,用于音频信号处理。该参数的取值为正整数。 80
    自定义音频分类模型类别集合 使用模型名称音频分类时,配置音频分类模型的类别集合,各类别之间使用半角逗号(,)分隔。例如男声,女声,表示音频分为男声和女声两类。
    音频分类或回归模型预测片段秒数 使用模型名称音频分类时,配置该参数。默认值10表示把音频每10秒切割一次,对其进行预测。 10
    执行调优 Worker数量 用于计算的Worker数量。 1
    计算线程数 单个Worker的计算线程数量。 6
    下载线程数 单个Worker中下载音频的线程数量。 7
    内存数 单个Worker的内存,单位为MB。 10000
  • 输出

    EasyASR离线预测(MaxCompute)算法组件的预测结果存储在临时的MaxCompute表中,其中prediction列表示预测结果。您可以右键单击画布中的EasyASR离线预测(MaxCompute)算法组件,在弹出的快捷菜单中选择查看数据,以查看预测结果。此外,您也可以将EasyASR离线预测(MaxCompute)组件的输出桩接入写数据表组件,将预测结果写入MaxCompute表。

示例

本文以语言分类为例,展示EasyASR离线预测(MaxCompute)算法的使用方法。

  1. 将音频的URL存储在MaxCompute表中。
    在进行语音分类(或语音识别)的离线预测时,您需要将待预测的音频URL存储在MaxCompute中,示例如下图所示。输入表示例
  2. 构建如下实验。输入配置示例配置EasyASR离线预测(MaxCompute)算法组件的使用模型名称参数为音频分类,其他参数使用默认值即可,详情请参见上文的组件参数
  3. 查看输出的预测结果。
    实验运行结束后,语音分类(或语音识别)的预测结果会输出在新的MaxCompute表中。该表在第一步准备的输入表基础上增加了一列prediction,表示预测结果。您可以右键单击画布中的EasyASR离线预测(MaxCompute)算法组件,在弹出的快捷菜单中选择查看数据,以查看预测结果。下图为语音分类的预测结果,每10秒音频片段进行一次预测。预测结果示例