针对常见的分轨、背景音过滤、方言、业务术语等识别问题。
常见效果问题
录音文件采样率不匹配导致的效果问题
一般来说,ASR模型识别率均有一定的保证。如果在所有情况下语音识别都不准确,或者识别率很低,需要确保录音文件的采样率(8k或者16k)与调用时设置的采样率参数(8k或者16k)保持一致,否则会影响ASR识别效果。图中通用模型为中文8k通用模型。
怎么查看音频文件的采样率?
可以使用常见音频编辑软件如Audacity查看音频文件的采样率,也可以使用开源命令行工具FFmpeg查看。
语音识别太灵敏、无效声音(噪音等)被识别出了文字怎么办?
可以通过设定非人声噪音过滤阈值(参数speech_noise_threshold
)来修改VAD噪声阈值。
参数区间是[-1,1],取值越小越灵敏,可能会有更多噪音被当成语音被误识别;取值越大,可能更多语音段会被当成噪音而没有被识别。例如设为0.8,如果仍觉得太灵敏,可以继续尝试设置为0.9。如果发现有丢字、漏识别,需要将该值调小,例如0.5、0.2甚至是-0.2等。
远场识别为什么会经常丢字?如何提高远场识别效果?
这是因为远、近场的VAD阈值不一样,建议可以通过设定非人声噪音过滤阈值(参数speech_noise_threshold
)来修改VAD噪声阈值。参数区间是[-1,1],取值越小越灵敏,可能会有更多噪音被当成语音被误识别;取值越大,可能更多语音段会被当成噪音而没有被识别。例如设为-0.2,如果丢字现象仍然比较严重,可以继续调小至如-0.3、-0.4;如果发现较多噪声被误识别了,也可以适当调大,例如-0.1、0等。
有些词汇总是识别不准怎么办?
在某些情况下,确实存在某些词汇识别不准的情况,如人名、地名、特定业务名词。针对此现象(下面以词汇“微贷”为例),我们建议有:
添加热词
创建质检任务时,选用具体热词
训练定制语言模型
创建质检任务时,选用定制语言模型
对于使用录音文件识别服务,如果是合轨录音(单轨录音)造成识别不准确。
对于客服有固定回复话术的情况,可以设置关键词来识别客服轨道,如在数据集管理中,可以上传录音文件(单轨),然后根据客服的固定回复话术来识别坐席身份。
在通过API发起质检任务时,autoSplit设置为1,serviceChannelKeywords设置为坐席区别性比较高的关键词。具体参考UploadAudioData - 上传音频质检
如果客服没有固定的回复话术,建议采用分轨进行存储。
录音文件识别存在一次请求后返回两次相同的结果的情况吗?
此类现象大部分是由于用户提交的语音文件是双声道,且两个声道语音内容相同造成的。如果是这种情况,属正常现象,可以提前处理录音文件将重复的声道去掉,只识别首个声道即可解决。
离线语音质检能自动区分坐席和客户吗?
语音识别引擎只能区分出说话的不同角色,角色对应的身份引擎是无法识别的,需要用户从业务的角度自行判断。建议您在存储录音时按照角色分类存储,同时发起质检任务时,指定轨道角色。
在通过API发起质检任务时,autoSplit设置为0,serviceChannel设置为坐席的轨道、clientChannel设置为客户的轨道。具体参考接口文档
在数据集管理中测试分轨效果时,针对双轨录音可以指定轨道。
离线语音质检是否支持多种方言
支持,创建质检任务时,可以选择具体的语言模型,如果列表中的语言模型不满足要求,可以联系阿里云工程师添加。
离线语音质检和实时语音质检分别支持哪些语音格式?
语音识别服务支持哪些采样率?
一般支持8000 Hz、16000 Hz的采样率。 电话客服场景通常是8000采样率,如果是手机App、PC端工具、网页H5类场景,通常是16000 Hz采样率(可能会有32、44k采样率,但开发时需要调用方将采样率调整为16k)。其他采样率的录音数据需要预先自行转码。
其他问题
如果人噪被误识别,此问题很难解决。噪声模型优先考虑只要是人发出的声音就会被送入ASR识别。
如果非人噪被误识别,您可以多收集一些噪声数据,提供给阿里云进行噪声模型优化。
如果波形幅度不大,能量过低,造成识别数据丢失,可能是由于音量太小被噪声模型当成噪声处理。建议调整收音设备,或减小说话人与收音设备的距离。
如果波形幅度过大能量过高造成识别错误,可能是由于音量太大被截幅而语音失真,造成识别错误。建议调整收音设备,或者说话人离收音设备远些。
如果频段信息不完整,可能会造成识别不准确,ASR模型的标准训练数据要求为频段完整的8K/16K采样率数据。建议确保频段信息完整的基础上,对识别不准确的地方使用语言模型训练功能进行优化。
如果使用了热词,业务专属热词的权重不宜过高,权重太高可能会引起语句被截断,导致后续语音无法进行识别。
针对一般的识别错误,可以使用语音模型优化,将识别不佳的句子(非单个词)进行多复制几遍的操作。
出现“吞音、辨识度不高、听不懂”等情况无法解决时:
如果存在方言和重口音,可能由于ASR的训练数据覆盖不全造成识别错误,请联系阿里云工程师进一步评估。
如果有大量的重口音(非方言)识别需求,请联系阿里云工程师进一步评估。