EasyASR数据集构建算法组件可以将WAV格式的音频数据及文本转换成TFRecord格式,可以为ASR和语音分类模型的训练或评估进行数据预处理。本文介绍EasyASR数据集构建算法组件的配置方法及使用示例。

前提条件

已开通OSS并完成授权,详情请参见开通OSS服务为PAI-Studio授予OSS访问权限

使用限制

仅PAI-Studio 2.0提供该算法组件。

算法简介

EasyASR数据集构建算法组件可以将原始WAV格式的音频数据及文本(包括标注的Label)转换成TFRecord格式,并保存到OSS。该组件可以用于训练或评估ASR模型或语音分类模型。

EasyASR数据集构建算法组件位于组件库音视觉算法文件夹下的音频预处理子文件夹。

可视化配置组件

  • 输入桩

    EasyASR数据集构建算法组件的输入桩必须接读OSS数据组件,并配置读OSS数据组件的OSS数据路径参数为目标CSV文件的OSS路径。

  • 组件参数
    页签 参数 是否必选 描述 默认值
    参数设置 输出路径 输出TFRecord的OSS存储路径,例如oss://my_bucket/output/
    执行调优 运行模式
    组件运行的引擎,您可以结合实际情况选择。系统支持以下计算引擎:
    MaxCompute
    用于计算的Worker数 执行数据转换的Worker数量。 1
    CPU机型 运行模式选择DLC时,需要配置该参数,表示用于计算的服务器规格。
  • 输出桩

    EasyASR数据集构建算法组件的输出桩可以接入EasyASR语音识别训练EasyASR语音分类训练算法组件。

示例

  1. 准备包含音频数据及文本的CSV文件。
    用于训练语音识别或语音分类模型的音频文件需要提前切割,建议长度在10s~12s左右(可适当变化),并保存在OSS。音频为单通道采样,频率为16 kHz。本文以训练语音识别模型为例,将音频路径和对应的标注文本保存在CSV文件中,并以半角逗号(,)分隔,格式示例如下图所示。输入文件在CSV文件中,第一行为列名,可以指定为wav_filename,transcript,之后的每行中,默认第一列为WAV文件的路径,第二列为标注结果。文本内容需要按字以空格进行分隔,所有标点(断句)使用半角分号(;)替换。如果出现词表之外的字,需要使用星号(*)代替。

    您可以下载对应的中文词表,请参见使用EasyASR进行语音识别

  2. 构建如下实验。示例实验您需要配置读OSS数据组件的OSS数据路径参数为上述CSV文件的OSS路径,其他参数配置请参见上文的EasyASR数据集构建组件的参数
  3. 在OSS查看输出的TFRecord。
    实验运行结束后,从EasyASR数据集构建算法组件的输出路径配置的OSS路径中,您可以查看输出的TFRecord文件。输出结果示例如下图所示。输出的TFRecord