语言模型

我们为您提供了通用模型,是语言基础模型,如果您在自己的领域积累了丰富的历史数据,可以使用这些历史数据作为语料来对自定义的语言模型进行训练,自定义的语言模型在训练时,是在通用模型的基础上进行训练的,通过对您的训练语料做模型训练,可以有效提高您的特有场景的语音识别准确率,尤其是专有名词和文本中的高频词汇,有较好的优化效果。

训练语料要求及优化建议

语料要求

推荐您使用 业务介绍资料产品介绍资料话术资料培训资料 模型效果评测 中进行人工校验产出的标注结果 作为训练使用的语料,对于语料文件具体的要求如下:

  1. 训练数据为领域相关的文本,与待识别语音数据越接近,优化效果越好。

  2. 以文本文件方式保存,使用UTF-8编码,无BOM头;语料文件大小在1MB-20MB,文本过少可能导致训练失败,过多会导致超限。

  3. 一句话或者一个被加强调优的关键词单独一行,控制每行的长度在500个字符以内(不是字节)。

  4. 文本中的数字最好按照发音替换为对应的汉字。例如:“58.9元”需要转换为“五十八点九元”。

  5. 文件中需要至少有一行为句子(大于4个词)。

  6. 只采用逗号‘,’、句号‘。’、问号‘?’和感叹号‘!’,句尾需要加标点。像书名号‘《’、‘》’,双引号‘“’、‘”’等标点应去除。

优化建议

对于识别不准确的关键词,可以将带这个词的句子或者关键词(一个关键词在训练文本中独占一行)多拷贝几行,例如10行。如果没有效果,可以再适当增加拷贝行数。

注意:

  1. 需要先确定关键词识别不准确的原因不是因为本身说的不清晰或者个别音频质量不好。

  2. 不要拷贝太多导致影响其他词识别或者整体识别率,这个只有在实际业务中尝试后总结经验。

操作流程

新建自定义语言模型

  1. 如下图所示,按照图片上标注的步骤进行操作;image.png

  2. 新建成功后,在语言模型列表可以看到,刚刚新建的自定义语言模型已经处于训练中了;image.png

优化现有的自定义语言模型

通过模型编辑,您可以补充语料进行再次训练,也可以删除已经上传的语料。通用模型不可编辑。

  1. 点击语言模型列表最右侧的 编辑 按钮;image.png

  2. 与新建语言模型类似,上传或删除语料后提交,该模型将会开始训练;

试试效果

试试效果功能,是使用指定的语言模型对已经上传的数据集中的文件进行语音转文字。对于通用模型,试试效果只能查看通用模型自己的转写结果,对于自定义模型,可以查看自定义模型与通用模型两个模型的转写结果,可以直观的看到两个模型转写结果之间的差异,我们以自定义模型来举例说明

  1. 点击语言模型列表最右侧的 试试效果 按钮;

  2. 选择一个数据集,然后点击 开始音频转写

  3. 转写完成后,对于两个模型转写有差异的部分,会高亮显示,如下图: