文档

语音识别问题排查

更新时间:
一键部署

本文为您介绍语音识别中出现问题的排查步骤及解决方案。

排查步骤

  1. 使用cooledit或者Adobe Audition软件查看语音格式,播放试听并查看分轨情况、波形、能量和频谱图。

    ASR识别标准格式:8KHz或16KHz采样率、16bit采样位数、单声道的语音数据(录音文件识别服务可支持双声道语音数据识别)。

  2. 检查管控台项目中使用的模型是否支持音频采样率和场景。

  3. 播放声音进行试听,重点关注如下两点:

    1. 是否存在噪音。若存在,是人噪(人发出的声音或者远场非主说话人的声音)还是非人噪(如敲桌子、开门、汽车鸣笛)。

    2. 发音清晰度、辨识度如何。是否存在吞音、语速过快或者重口音、方言等情形。

  4. 查看波形、能量和频谱图,重点关注波形幅度和频段信息。

    1. 波形幅度是否过小或过大。以8KHz采样率语音为例,图1为正常语音波形;图2波形幅度过小,话音能量过低;图3波形幅度过大,有可能造成超出系统范围被截断的情况。

      图1

      正常的波形

      图2

      幅度过低

      图3

      幅度过大
    2. 频段信息是否符合要求。

      以8KHz采样率语音为例,实际频段信息只有3*2=6K(最高频段信息2倍即为实际采样率)。

      图4频段不完整

    说明

    对于录音文件识别服务,还需查看是合轨还是分轨数据:

    以客服场景为例,合轨指客户和客服的声音存在一个声道,不免会有语音重叠的时刻;分轨指客户和客服的声音分开存储在两个声道。

  5. 是否使用了热词或者自学习模型。

解决方案

说明

语音识别不可能达到100%识别率。

  • 在项目中选择支持的音频采样率和场景的模型。

  • 出现“吞音、辨识度不高、听不懂”等情况无法解决时:

    • 如果存在方言和重口音,可能由于ASR的训练数据覆盖不全造成识别错误,请联系阿里智能语音交互工程师进一步评估。

    • 如果有大量的重口音(非方言)识别需求,请联系阿里智能语音交互工程师进一步评估。

  • 如果人噪被误识别,此问题很难解决。

    噪声模型优先考虑只要是人发出的声音就会被送进ASR识别。

  • 如果存在非人噪被误识别,您可以多收集一些噪声数据,提供给阿里云进行噪声模型优化。

  • 如果波形幅度不大能量过低造成识别数据丢失,可能是由于音量太小被噪声模型当成噪声处理。

    建议调整收音设备,或减小说话人与收音设备的距离。

  • 如果波形幅度过大能量过高造成识别错误,可能是由于音量太大被截幅而语音失真,造成识别错误。

    建议调整收音设备,或者说话人离收音设备远些。

  • 如果频段信息不完整,可能会造成识别不准确,ASR模型的标准训练数据要求为频段完整的8K/16K采样率数据。

    建议确保频段信息完整的基础上,对识别不准确的地方使用自学习模型进行优化。

  • 如果使用了热词,业务专属热词的权重不宜过高,权重太高可能会引起语句被截断,导致后续语音无法进行识别。

  • 针对一般的识别错误,可以使用语音模型优化,将识别不佳的句子(非单个词)进行多复制几遍的操作。

  • 对于使用录音文件识别服务,如果是合轨数据造成识别不准确。

    建议采用分轨进行存储。

  • 本页导读 (1)
文档反馈