EasyASR数据集构建算法组件可以将WAV格式的音频数据及文本转换成TFRecord格式,可以为ASR和语音分类模型的训练或评估进行数据预处理。本文介绍EasyASR数据集构建算法组件的配置方法及使用示例。
前提条件
已开通OSS并完成授权,详情请参见开通OSS服务和PAI访问云产品授权:OSS。
使用限制
仅PAI-Studio 2.0提供该算法组件。
算法简介
EasyASR数据集构建算法组件可以将原始WAV格式的音频数据及文本(包括标注的Label)转换成TFRecord格式,并保存到OSS。该组件可以用于训练或评估ASR模型或语音分类模型。
EasyASR数据集构建算法组件位于组件库音视觉算法文件夹下的音频预处理子文件夹。
可视化配置组件
- 输入桩
EasyASR数据集构建算法组件的输入桩必须接读OSS数据组件,并配置读OSS数据组件的OSS数据路径参数为目标CSV文件的OSS路径。
- 组件参数
页签 参数 是否必选 描述 默认值 参数设置 输出路径 是 输出TFRecord的OSS存储路径,例如 oss://my_bucket/output/
。无 执行调优 运行模式 否 组件运行的引擎,您可以结合实际情况选择。系统支持以下计算引擎:- MaxCompute:使用您在对应的AI工作空间中绑定的MaxCompute实例进行计算。关于如何添加计算资源请参见配置工作空间。关于计费,请参见深度学习组件定价。
- DLC:使用您在对应的AI工作空间中绑定的DLC实例进行计算。关于如何添加计算资源请参见配置工作空间。关于计费,请参见PAI-DLC公共资源组计费。
MaxCompute 用于计算的Worker数 否 执行数据转换的Worker数量。 1 CPU机型 否 仅运行模式选择DLC时,需要配置该参数,表示用于计算的服务器规格。 无 - 输出桩
EasyASR数据集构建算法组件的输出桩可以接入EasyASR语音识别训练或EasyASR语音分类训练算法组件。
示例
- 准备包含音频数据及文本的CSV文件。
用于训练语音识别或语音分类模型的音频文件需要提前切割,建议长度在10s~12s左右(可适当变化),并保存在OSS。音频为单通道采样,频率为16 kHz。本文以训练语音识别模型为例,将音频路径和对应的标注文本保存在CSV文件中,并以半角逗号(,)分隔,格式示例如下图所示。
在CSV文件中,第一行为列名,可以指定为
wav_filename,transcript
,之后的每行中,默认第一列为WAV文件的路径,第二列为标注结果。文本内容需要按字以空格进行分隔,所有标点(断句)使用半角分号(;)替换。如果出现词表之外的字,需要使用星号(*)代替。您可以下载对应的中文词表,请参见使用EasyASR进行语音识别。
- 构建如下实验。
您需要配置读OSS数据组件的OSS数据路径参数为上述CSV文件的OSS路径,其他参数配置请参见上文的EasyASR数据集构建组件的参数。
- 在OSS查看输出的TFRecord。
实验运行结束后,从EasyASR数据集构建算法组件的输出路径配置的OSS路径中,您可以查看输出的TFRecord文件。输出结果示例如下图所示。