高质量的录音数据对于模型训练至关重要,本篇文章将从日常环境选择、录音设备、录制过程、常见问题等方面提供建议和指导,希望您能通过学习和实践能够录制出非专业环境下高质量的音频数据。
录制高质量的音频有一定的门槛,掌握录制方法并非一件轻松的事。有条件的情况下,推荐选择专业录音棚并聘请录音指导师,可以大幅提升录制效率。
录音前
录音设备
通常情况下使用手机系统自带录音软件即可,无需耳机、耳麦。如使用其他录音软件,需设置录制格式为WAV(PCM)、单声道、采样率为48kHz。
环境选择
录音环境的选择主要考虑降低噪音和混响,建议使用10平方米以内的小房间进行录音,有吸音装置的房间是理想环境。可使用价格低廉的吸音棉对房间进行改造,目的是为了改变声波的平面反射为漫反射,降低混响。
噪音控制
室外噪声可以通过关闭门窗部分解决,室内噪声主要来自空调、风扇(含电脑风扇)、日光灯镇流器等。可使用手机录制环境声音并放大音量倾听录音,辨别并关闭噪声源。需要在源头避免噪声,而不是通过降噪软件后期处理。
混响控制
混响是由于声波在墙壁、玻璃上等光滑平面上反射产生,会导致声音浑浊。录制时,不要选择空旷的房间,应尽量选择有吸音设施,或摆放不规则的环境,以降低混响。日常的办公环境、会议室是不可以用来做录音环境的。
普通的卧室,是相对常见的理想录音环境,录音时可以:
关闭门窗,降低室外噪音;
关闭空调/电扇,阻止室内噪音源;
拉窗帘,降低玻璃的声音反射;
打开柜门、使用衣物床单等覆盖柜面/桌面,降低光滑平面的声音反射;
录音文案
建议在录音前熟悉文案,并确定好人设及演绎风格。文案内容无特殊限制,可以使用与待合成内容一致。合成内容中如包含英文字母,需要进行单独录制,如NBA,CEO等。
录制中
姿态
麦克风距离
录制时口部与麦克风保持10~15cm距离,并需要保持位置、距离稳定,防止音量大小不一致。不要让讲话的气流正对麦克风,防止喷麦造成的噪音。
身姿控制
录音时尽量保持姿态稳定,减少不必要的肢体动作,椅子的响声、衣物的摩擦音、鼠标键盘的敲击声都是常见的人为噪声,需要格外注意细节。
发音
录音时需要保持音量大小、语速稳定、注意断句、避免口腔噪音(如口水声)。结合最终使用场景与人设加入适当演绎,避免朗读风格过于严重,并保持整体风格一致。
如口误无需终止录音,可停顿1~2秒后,继续录制即可。文案中所有文字不必追求一字不落地完成,可以接受丢字、填字,保持语句通畅即可。
保障发音清晰准确,让假想听众能够听的清楚更重要。通常情况下,一次性完成全部录音是不可取的,分段、多次录制有利于缓解疲劳,调整状态,是更好的选择,需额外注意多段音频的一致性。
自制录音常见问题
音频分析工具
录音质量的高低除人工倾听判断外,更多细节需要通过专业软件配合,我们推荐使用Adobe Audition(付费)或Audacity(免费),建议从官方网站下载使用。
噪声问题
噪声是人声以外的声音,对最终合成效果影响很大,且很难有效去除,因此需要在录制阶段特别注意。
含有噪声的音频具体表现为句间静音部分有持续不断的非人声数据,通过波形图或频谱图放大后如下图所示:
理想的低噪声数据在波形图中表现为平整,在频谱图中表现为无(低)能量信息,如下图所示:
噪声本身不能被完全消除,需要在可能的情况下尽量避免。
混响问题
混响会导致声音浑浊,听感类似回声,对最终合成效果影响很大,且很难有效去除。
混响大的数据在频谱图中表现为单字能量有残留,在句末尤其明显,会影响下一个字的清晰度,如下图所示:
在低混响的数据中,每个字的能量图会有相对清晰的边界(如下图),图中最后位置附近的残留是正常的呼吸音,非混响,录制时无需特别控制,保持自然即可。
情绪过于平淡
当前算法最终合成效果的情感与录音数据是一致且单一的,如希望最终合成慷慨激昂、富裕感染力的声音,则需要提供相同情感的录音文件。常见的问题是录音人按照固定文案,通过朗读的方式进行录制,缺乏情感表现,另会由于疲惫导致情感逐渐低落,需要特别注意。
录音时可以通过不断的心理暗示,提示自己要保持亢奋,按照最终使用场景完成录制。也可以请其他人帮忙监督,或通过回听的方式检验录音效果,防止情绪波动。
音量、语速不一致
此问题主要是拼接多段不同来源的音频导致,如下图所示:
音量过大或过小
音量过大,会产生音频截幅现象,会导致声音信息不完整,具体表现为波形图中波峰信息被截断:
造成音量过大的可能原因有:
离麦克风过近
录制时发音过大
录音软件的增益调节过高
音量过小,主要会导致数据处理过程中噪声被同步放大,最终引起噪声过大的相关问题。
造成音量过小的可能原因有:
离麦克风过远
录制时声音太小
在数字人视频采集中,一个误区是同时使用领夹麦完成音频采集。为满足美观性、防遮挡、麦克风隐藏等要求,经常出现音量过小问题,建议单独采集音频。
适合训练的音频,应使音量峰值控制在-6dB~-3dB范围内,如下图所示:
使用手机进行录音时,软件界面通常会同步展示波形图,可用于辅助判断音量大小是否合适。