文档

录音管理

更新时间:

本文将介绍录音管理以及播放的相关功能,以及如何制作合格的录音。

功能概述

对话引擎3.0中提供录音管理模块,主要功能点:

  • 允许机器人播放录音文件、以及录音和TTS拼接播放(但不推荐使用),在对话设计的回复框中调用

  • 提供了录音管理的必要功能,包括批量、单个录音的上传、存储、删除、转写文字及编辑、试听等

  • 录音上线、审核流程自动化

  • 支持MP3、WAV等常见音频文件格式,并自动转为8k16bit格式

  • 自动切除头尾空白音、自动降噪

使用方法

录音的创建

在场景管理中(必须是语音对话引擎3.0版本下),可以找到【录音管理】tab页。

image

点击右上角【添加录音】按钮,并向弹窗中拖拉音频文件即可上传。

image image

需要注意:

  • 每个场景限制100条录音文件

  • 文件格式必须是MP3、WAV、M4A

  • 单个录音时长不超过3分钟

录音的发布与审核

上传后会进行校验、合规性审核等自动流程,全部通过后会自动发布上线。结果会体现在录音列表页中。

image

录音编辑(转写内容)

对于完成发布后的录音,系统会自动转写文字内容并保存。点击右边【编辑内容】按钮,可以在弹窗中编辑内容。

image

后台自动处理

降噪:对于录音中过于明显的噪音自动降噪

自动切除空白片段:对于录音开头和结尾的空白音自动切除,只保留0.3s

合规性检测:非法、不合规内容将自动驳回

自动转写:系统会自动转写录音的文字内容并保存

录音在对话设计时的引用

在对话流的【回复节点】的回复框中,可以发现增加了【变量】和【录音】两个选项。在光标位置点击【录音】按钮会在下方展开录音搜索和选择功能,选择后插入到文本内容中,以橙色显示录音文件名,鼠标hover在橙色文件名上时,会展示录音文本内容。

image

image

也可以选择插入录音并点击【新建录音】,可以在当前页面直接上传录音。

注意:录音的版本与导出问题

  1. 在场景进行版本回滚是不包含对录音回滚操作的,场景的版本调整只影响对话流及其他配置,录音条目不会改变(但录音调用和播放策略可能随着对话流变化)

  2. 场景的导出当前不包含录音文件,需要单独在录音管理菜单下对录音进行导出

优质录音制作tips

录制须知

最好使用性能较好的手机,比如用iPhone自带的录音工具即可,无需专业录制app。

此外:

  1. 连接有线耳机会比好,录制时注意麦克风离嘴唇5-10cm

  2. 如果使用无线耳机,请多做测试确保效果达标

  3. 注意尽量避免麦克风的移动、碰触等,都会带来噪音

  4. 说话音量平稳,声音正常讲话为准,不要刻意压低,但也要避免呼吸过重

  5. 确保背景安静,如果有录音棚效果更好

剪切须知

工具推荐:只要可以剪切音频文件的应用均可(包括移动端),注意保存格式。mac用户可以使用audacity。

后期处理时,首先仔细试听多遍录音本身,确保没有明显的噪音、毛刺、呼吸声、卡顿等。

如果允许,使用工具对录音的开头结尾空白音进行测算,不要小于0.3秒。

此外,在对话设计过程中,尽量避免每次只考虑某一轮对话、一个节点的设计。对话设计是一个整体,应该整体的思考、设计、打磨。可以参考以下模式:

  1. 找两位业务人员,扮演对话双方,设计出对话主干脚本(即电话外呼核心目标实现的最短流程)

  2. 对主干脚本变化出3个左右的分支版本,但仍需是完整对话的内容

  3. 二人扮演双方开始面对面模拟打电话,逐一模拟各个脚本,对每字每句进行推敲打磨

  4. 修改完成后定稿,并延伸更多分支场景,循环2-3步骤

在可预想到的分支场景都完成脚本推敲后(每字每句都确定后),开始录制录音。

其他问题

什么时候用录音替代TTS合适

对于交互复杂度很低、且对于声音音质、逼真度要求极高的客户或场景来说,可能使用录音是更好的方式。

因为,使用录音将无法播放动态变量信息,这将导致你的所有外呼电话中播报内容都是完全统一、不能有任何变化的,如用户姓名、不同的下单时间等,都无法播报。

用TTS+录音是否合适

无论何种情况下都不建议。主要原因有:

  1. TTS由阿里云提供,除非您能联系到这些TTS的录音人来给您录音,否则TTS和录音的音色在电话里听到的就是两个人声,会带来极大的体验损失

  2. 连续一句话分成TTS和录音播放,会导致出现不连贯性,而且这是无法预测和控制的

  3. 这样的模式维护成本极高