EasyASR语音分类训练算法组件以TFRecord格式的数据作为输入,进行语音分类模型训练。本文介绍EasyASR语音分类训练算法组件的配置方法及使用示例。
前提条件
已开通OSS并完成授权,详情请参见开通OSS服务和PAI访问云产品授权:OSS。
使用限制
仅PAI-Studio 2.0提供该算法组件。
算法简介
EasyASR语音分类训练算法组件使用EasyASR数据集构建输出的TFRecord作为数据源,用于训练语音分类模型。建议在单机多卡环境下运行该组件。
EasyASR语音分类训练算法组件位于组件库音视觉算法文件夹下的离线训练模型子文件夹。
可视化配置组件
- 输入
EasyASR语音分类训练算法组件需要两个输入,分别为训练数据和评估数据。您可以通过两种方式配置输入数据:
- 方法一:通过输入桩配置
在EasyASR语音分类训练算法组件前面接两个EasyASR数据集构建组件,分别构建用于训练和评估模型精度的数据。并将训练数据接入EasyASR语音分类训练组件的左侧输入桩,将评估数据接入EasyASR语音分类训练组件的右侧输入桩,如下图所示。
- 方法二:通过组件参数配置
直接在配置参数中填写训练和评估集TFRecord的OSS路径,即配置训练TFRecord的OSS路径和训练TFRecord的OSS路径参数,详情请参见下文的组件参数。
- 方法一:通过输入桩配置
- 组件参数
页签 参数 是否必选 描述 默认值 参数设置 模型配置文件 是 语音分类模型配置文件的OSS路径。例如 oss://my_bucket/audio_cls/w2lplus_cls.py
,其中cls.py为模型配置文件。您可以下载对应的模型配置文件并将其保存在OSS,详情请参见使用EasyASR进行语音分类。
无 模型Checkpoint保存OSS路径 否 如果在模型配置文件中没有填写模型Checkpoint文件,则必须单独配置模型Checkpoint保存OSS路径。
该参数为保存模型Checkpoint的OSS文件夹,例如
oss://my_bucket/my_checkpoint_dir/
。无 音频分类模型类别集合 否 如果在模型配置文件中没有填写语音分类模型的类别集合,则必须单独配置音频分类模型类别集合。各类别之间使用半角逗号(,)分隔。例如
男声,女声
,表示音频分为男声和女声两类。无 音频特征维度 否 如果在模型配置文件中没有填写该参数,则必须单独配置音频特征维度。 该参数表示音频LogFBank特征的维度,用于音频信号处理。该参数的取值为正整数。
无 是否为Fine-tune 否 是否进行Fine-Tune,支持以下取值: - 否:不进行Fine-Tune,从头开始训练。
- 是:在原有Checkpoint文件夹下的最后一个Checkpoint基础上继续训练。
否 训练TFRecord的OSS路径 否 如果没有通过输入桩配置算法组件的输入,则需要配置该参数,表示训练TFRecord的OSS路径。 如果同时通过输入桩和该参数配置了算法组件的输入,则优先使用输入桩配置的输入。
无 评估TFRecord的OSS路径 否 如果没有通过输入桩配置算法组件的输入,则需要配置该参数,表示评估TFRecord的OSS路径。 如果同时通过输入桩和该参数配置了算法组件的输入,则优先使用输入桩配置的输入。
无 执行调优 运行模式 否 组件运行的引擎,您可以结合实际情况选择。系统支持以下计算引擎:- MaxCompute:使用您在对应的AI工作空间中绑定的MaxCompute实例进行计算。关于如何添加计算资源请参见配置工作空间。关于计费,请参见深度学习组件定价。
- DLC:使用您在对应的AI工作空间中绑定的DLC实例进行计算。关于如何添加计算资源请参见配置工作空间。关于计费,请参见PAI-DLC公共资源组计费。
MaxCompute 计算资源 否 当运行模式为MaxCompute时,您还需要配置以下参数: - CPU数量:计算时,单个Worker的CPU数量。
- GPU数量:GPU卡的数量,用于深度学习模型的计算。
- 内存(MB):单个Worker的内存,单位为MB。
- CPU数量:10
- GPU数量:1
- 内存(MB):50000
GPU机型选择 否 当运行模式为DLC时,您需要选择用于计算的GPU机型。,表示用于计算的GPU机型。 无 - 输出
EasyASR语音分类训练算法组件的输出桩可以接入EasyASR离线预测(MaxCompute)或EasyASR离线预测(DLC)算法组件。
该组件训练的模型导出格式为SavedModel,保存在模型Checkpoint保存OSS路径下的export_dir子文件夹,例如
oss://my_bucket/my_checkpoint_dir/export_dir/
。
示例
首次进行语音分类模型训练时,建议使用PAI定制的语音分类模型结构作为基础进行训练。PAI提供了基于TDNN的语音分类模型配置,您可以下载对应的模型配置文件,并将其存储在自己的OSS中,详情请参见使用EasyASR进行语音分类。

EasyASR语音分类训练组件运行时,会自动进行训练和评估,并将模型导出为SavedModel(保存在模型Checkpoint保存OSS路径下的export_dir子文件夹,例如oss://my_bucket/my_checkpoint_dir/export_dir/
)用于加速推理。
您也可以在自己训练的语音分类模型Checkpoint基础上进行Fine-Tune,此时需要将是否为Fine-tune设置为是即可。参数配置请参见上文的组件参数。