EasyASR语音分类训练算法组件以TFRecord格式的数据作为输入,进行语音分类模型训练。本文介绍EasyASR语音分类训练算法组件的配置方法及使用示例。

前提条件

已开通OSS并完成授权,详情请参见开通OSS服务为PAI-Studio授予OSS访问权限

使用限制

仅PAI-Studio 2.0提供该算法组件。

算法简介

EasyASR语音分类训练算法组件使用EasyASR数据集构建输出的TFRecord作为数据源,用于训练语音分类模型。建议在单机多卡环境下运行该组件。

EasyASR语音分类训练算法组件位于组件库音视觉算法文件夹下的离线训练模型子文件夹。

可视化配置组件

  • 输入
    EasyASR语音分类训练算法组件需要两个输入,分别为训练数据和评估数据。您可以通过两种方式配置输入数据:
    • 方法一:通过输入桩配置
      EasyASR语音分类训练算法组件前面接两个EasyASR数据集构建组件,分别构建用于训练和评估模型精度的数据。并将训练数据接入EasyASR语音分类训练组件的左侧输入桩,将评估数据接入EasyASR语音分类训练组件的右侧输入桩,如下图所示。输入
    • 方法二:通过组件参数配置

      直接在配置参数中填写训练和评估集TFRecord的OSS路径,即配置训练TFRecord的OSS路径训练TFRecord的OSS路径参数,详情请参见下文的组件参数

  • 组件参数
    页签 参数 是否必选 描述 默认值
    参数设置 模型配置文件 语音分类模型配置文件的OSS路径。例如oss://my_bucket/audio_cls/w2lplus_cls.py,其中cls.py为模型配置文件。

    您可以下载对应的模型配置文件并将其保存在OSS,详情请参见使用EasyASR进行语音分类

    模型Checkpoint保存OSS路径

    如果在模型配置文件中没有填写模型Checkpoint文件,则必须单独配置模型Checkpoint保存OSS路径

    该参数为保存模型Checkpoint的OSS文件夹,例如oss://my_bucket/my_checkpoint_dir/

    音频分类模型类别集合

    如果在模型配置文件中没有填写语音分类模型的类别集合,则必须单独配置音频分类模型类别集合。各类别之间使用半角逗号(,)分隔。例如男声,女声,表示音频分为男声和女声两类。

    音频特征维度 如果在模型配置文件中没有填写该参数,则必须单独配置音频特征维度

    该参数表示音频LogFBank特征的维度,用于音频信号处理。该参数的取值为正整数。

    是否为Fine-tune 是否进行Fine-Tune,支持以下取值:
    • :不进行Fine-Tune,从头开始训练。
    • :在原有Checkpoint文件夹下的最后一个Checkpoint基础上继续训练。
    训练TFRecord的OSS路径 如果没有通过输入桩配置算法组件的输入,则需要配置该参数,表示训练TFRecord的OSS路径。

    如果同时通过输入桩和该参数配置了算法组件的输入,则优先使用输入桩配置的输入。

    评估TFRecord的OSS路径 如果没有通过输入桩配置算法组件的输入,则需要配置该参数,表示评估TFRecord的OSS路径。

    如果同时通过输入桩和该参数配置了算法组件的输入,则优先使用输入桩配置的输入。

    执行调优 运行模式
    组件运行的引擎,您可以结合实际情况选择。系统支持以下计算引擎:
    MaxCompute
    计算资源 运行模式MaxCompute时,您还需要配置以下参数:
    • CPU数量:计算时,单个Worker的CPU数量。
    • GPU数量:GPU卡的数量,用于深度学习模型的计算。
    • 内存(MB):单个Worker的内存,单位为MB。
    • CPU数量:10
    • GPU数量:1
    • 内存(MB):50000
    GPU机型选择 运行模式DLC时,您需要选择用于计算的GPU机型。,表示用于计算的GPU机型。
  • 输出

    EasyASR语音分类训练算法组件的输出桩可以接入EasyASR离线预测(MaxCompute)EasyASR离线预测(DLC)算法组件。

    该组件训练的模型导出格式为SavedModel,保存在模型Checkpoint保存OSS路径下的export_dir子文件夹,例如oss://my_bucket/my_checkpoint_dir/export_dir/

示例

首次进行语音分类模型训练时,建议使用PAI定制的语音分类模型结构作为基础进行训练。PAI提供了基于TDNN的语音分类模型配置,您可以下载对应的模型配置文件,并将其存储在自己的OSS中,详情请参见使用EasyASR进行语音分类

本示例通过输入桩配置EasyASR语音分类训练算法组件的输入,即构建如下实验。输入首次训练语音分类模型时,您需要填写模型配置文件的路径、模型Checkpoint保存OSS路径音频分类模型类别集合音频特征维度,并且将是否为Fine-tune设置为。参数配置请参见上文的组件参数

EasyASR语音分类训练组件运行时,会自动进行训练和评估,并将模型导出为SavedModel(保存在模型Checkpoint保存OSS路径下的export_dir子文件夹,例如oss://my_bucket/my_checkpoint_dir/export_dir/)用于加速推理。

您也可以在自己训练的语音分类模型Checkpoint基础上进行Fine-Tune,此时需要将是否为Fine-tune设置为即可。参数配置请参见上文的组件参数