文档

EasyASR离线预测(DLC)

更新时间:

EasyASR离线预测(DLC)算法组件可以调用SavedModel模型,并使用DLC计算引擎进行语音识别预测或语音分类预测。本文介绍EasyASR离线预测(DLC)算法组件的配置方法及使用示例。

前提条件

已开通OSS并完成授权,详情请参见开通OSS服务云产品依赖与授权:Designer

算法简介

EasyASR离线预测(DLC)算法组件支持语音识别和语音分类离线预测功能,您可以通过该组件调用TensorFlow SavedModel进行预测,建议在多机单卡环境下运行该组件。

可视化配置组件

  • 输入

    EasyASR离线预测(DLC)算法组件需要如下两个输入:

    • 存储输入音频URL的CSV文件

      EasyASR离线预测(DLC)算法组件前面接一个读OSS数据组件,并将读OSS数据组件的输出接入EasyASR离线预测(DLC)组件的左侧输入桩。同时,您需要配置读OSS数据组件的OSS数据路径参数为存储输入音频URL的CSV文件的路径。

    • SavedModel格式的模型

      您可以通过以下两种方式配置输入的SavedModel模型:

      • 方法一:通过输入桩配置

        EasyASR离线预测(DLC)算法组件前面接一个EasyASR语音识别训练组件或EasyASR语音分类训练组件,并将该组件的输出接入EasyASR离线预测(DLC)组件的右侧输入桩,即将训练获得的SavedModel直接用于离线预测,如下图所示。输入桩示例

      • 方法二:通过组件参数配置

        直接在配置参数中填写SavedModel的OSS路径,即配置模型路径参数,此时您还需要搭配使用自定义模型参数一起使用,详情请参见下文的组件参数

  • 组件参数

    页签

    参数

    是否必选

    描述

    默认值

    参数设置

    Buckets

    存放待预测音频文件的OSS Bucket,选择到Bucket根目录即可。

    使用模型名称

    EasyASR离线预测(DLC)算法组件支持使用以下类型的模型进行离线预测:

    • Wav2Letter ASR:Wav2Letter类型的语音识别模型。

    • Transformer ASR:Transformer类型的语音识别模型。

    • 音频分类:语音分类模型。

    Wav2Letter ASR

    使用自定义模型

    是否使用自定义模型,支持以下取值:

    • :此时您需要通过输入桩为EasyASR离线预测(DLC)算法组件配置输入的SavedModel模型,详情请参见上文的通过输入桩配置

    • :此时您需要通过模型路径参数为EasyASR离线预测(DLC)算法组件配置输入的SavedModel模型。

    模型路径

    使用自定义模型时,配置该参数为SavedModel的OSS路径,例如oss://my_bucket/my_checkpoint_dir/

    输出CSV

    输出CSV文件的OSS路径。例如oss://my_bucket/w2lplus-small/output.csv,组件会将预测结果写入到output.csv中。

    ASR词汇表

    使用模型名称Wav2Letter ASRTransformer ASR时,需要配置该参数,表示语音识别词汇表的OSS路径。例如oss://my_bucket/w2lplus-small/alphabet4k.txt,其中alphabet4k.txt为词汇表。

    URL列ID

    在存储待预测音频URL路径的MaxCompute表中,URL所在列的编号,且从零开始编号。例如在第二列,则该参数取值为1。

    0

    音频特征维度

    音频LogFBank特征的维度,用于音频信号处理。该参数的取值为正整数。

    80

    自定义音频分类模型类别集合

    使用模型名称音频分类时,配置音频分类模型的类别集合,各类别之间使用半角逗号(,)分隔。例如男声,女声,表示音频分为男声和女声两类。

    音频分类或回归模型预测片段秒数

    使用模型名称音频分类时,配置该参数。默认值10表示把音频每10秒切割一次,对其进行预测。

    10

    执行调优

    Worker数量

    用于计算的Worker数量。

    1

    计算线程数

    单个Worker的计算线程数量。

    6

    下载线程数

    单个Worker中下载音频的线程数量。

    7

    GPU机器选择

    用于计算的GPU机型。

    ecs.gn5-c8g1.2xlarge

  • 输出

    EasyASR离线预测(DLC)算法组件的预测结果存储在输出CSV配置的CSV文件中。

示例

本文以语音分类为例,展示EasyASR离线预测(DLC)算法的使用方法。

  1. 将音频的URL记录在CSV文件中,并存储在OSS。

    在进行语音分类(或语音识别)的离线预测时,您需要将待预测的音频URL存储在CSV文件中,每一行为一个音频的URL,示例如下图所示。image

  2. 构建如下工作流。输入桩示例配置EasyASR离线预测(DLC)算法组件的使用模型名称参数为音频分类,其他参数使用默认值即可,详情请参见上文的组件参数

  3. 查看输出的预测结果。

    工作流运行结束后,语音分类(或语音识别)的预测结果会输出在输出CSV配置的CSV文件中。

  • 本页导读 (1)
文档反馈