EasyASR离线预测(DLC)算法组件可以调用SavedModel模型,并使用PAI-DLC计算引擎进行语音识别预测或语音分类预测。本文介绍EasyASR离线预测(DLC)算法组件的配置方法及使用示例。
前提条件
已开通OSS并完成授权,详情请参见开通OSS服务和为PAI-Studio授予OSS访问权限。
使用限制
仅PAI-Studio 2.0提供该算法组件。
算法简介
EasyASR离线预测(DLC)算法组件支持语音识别和语音分类离线预测功能,您可以通过该组件调用TensorFlow SavedModel进行预测,建议在多机单卡环境下运行该组件。
EasyASR离线预测(DLC)算法组件位于组件库音视觉算法文件夹下的离线模型预测子文件夹。
可视化配置组件
- 输入
EasyASR离线预测(DLC)算法组件需要如下两个输入:
- 存储输入音频URL的CSV文件
在EasyASR离线预测(DLC)算法组件前面接一个读OSS数据组件,并将读OSS数据组件的输出接入EasyASR离线预测(DLC)组件的左侧输入桩。同时,您需要配置读OSS数据组件的OSS数据路径参数为存储输入音频URL的CSV文件的路径。
- SavedModel格式的模型
您可以通过以下两种方式配置输入的SavedModel模型:
- 方法一:通过输入桩配置
在EasyASR离线预测(DLC)算法组件前面接一个EasyASR语音识别训练组件或EasyASR语音分类训练组件,并将该组件的输出接入EasyASR离线预测(DLC)组件的右侧输入桩,即将训练获得的SavedModel直接用于离线预测,如下图所示。
- 方法二:通过组件参数配置
直接在配置参数中填写SavedModel的OSS路径,即配置模型路径参数,此时您还需要搭配使用自定义模型参数一起使用,详情请参见下文的组件参数。
- 方法一:通过输入桩配置
- 存储输入音频URL的CSV文件
- 组件参数
页签 参数 是否必选 描述 默认值 参数设置 Buckets 是 存放待预测音频文件的OSS Bucket,选择到Bucket根目录即可。 无 使用模型名称 否 EasyASR离线预测(DLC)算法组件支持使用以下类型的模型进行离线预测: - Wav2Letter ASRwav2Letter类型的语音识别模型。
- Transformer ASRtransformer类型的语音识别模型。
- 音频分类:语音分类模型。
Wav2Letter ASR 使用自定义模型 否 是否使用自定义模型,支持以下取值: - 否:此时您需要通过输入桩为EasyASR离线预测(DLC)算法组件配置输入的SavedModel模型,详情请参见上文的通过输入桩配置。
- 是:此时您需要通过模型路径参数为EasyASR离线预测(DLC)算法组件配置输入的SavedModel模型。
否 模型路径 否 仅使用自定义模型为是时,配置该参数为SavedModel的OSS路径,例如 oss://my_bucket/my_checkpoint_dir/
。无 输出CSV 是 输出CSV文件的OSS路径。例如 oss://my_bucket/w2lplus-small/output.csv
,组件会将预测结果写入到output.csv中。无 ASR词汇表 否 当使用模型名称为Wav2Letter ASR或Transformer ASR时,需要配置该参数,表示语音识别词汇表的OSS路径。例如 oss://my_bucket/w2lplus-small/alphabet4k.txt
,其中alphabet4k.txt为词汇表。无 URL列ID 否 在存储待预测音频URL路径的MaxCompute表中,URL所在列的编号,且从零开始编号。例如在第二列,则该参数取值为1。 0 音频特征维度 否 音频LogFBank特征的维度,用于音频信号处理。该参数的取值为正整数。 80 自定义音频分类模型类别集合 否 仅使用模型名称为音频分类时,配置音频分类模型的类别集合,各类别之间使用半角逗号(,)分隔。例如 男声,女声
,表示音频分为男声和女声两类。无 音频分类或回归模型预测片段秒数 否 仅使用模型名称为音频分类时,配置该参数。默认值10表示把音频每10秒切割一次,对其进行预测。 10 执行调优 Worker数量 否 用于计算的Worker数量。 1 计算线程数 否 单个Worker的计算线程数量。 6 下载线程数 否 单个Worker中下载音频的线程数量。 7 GPU机器选择 否 用于计算的GPU机型。 无 - 输出
EasyASR离线预测(DLC)算法组件的预测结果存储在输出CSV配置的CSV文件中。
示例
本文以语音分类为例,展示EasyASR离线预测(DLC)算法的使用方法。
- 将音频的URL记录在CSV文件中,并存储在OSS。
在进行语音分类(或语音识别)的离线预测时,您需要将待预测的音频URL存储在CSV文件中,每一行为一个音频的URL,示例如下图所示。
- 构建如下实验。
配置EasyASR离线预测(DLC)算法组件的使用模型名称参数为音频分类,其他参数使用默认值即可,详情请参见上文的组件参数。
- 查看输出的预测结果。
实验运行结束后,语音分类(或语音识别)的预测结果会输出在输出CSV配置的CSV文件中。