数据集管理

数据集是一个或多个录音文件组成的集合,您可以将呼叫中心已经生成的录音文件创建为数据集,然后使用数据集发起数据集质检任务。

新建数据集

1、上传音频文件

点击,数据集质检-数据集管理,页面列表上方的 新建数据集 按钮,如下图所示,按照页面提示进行填写,并按照页面提示的要求上传录音文件,对于某些不符合标准的音频,上传时会做自动转码处理,比如将采样率转为8000Hz,单击下载 音频样例 。上传完毕后点击页面底部的 下一步 按钮,进行话者角色配置;

image.png

2、开始音频转写

系统会随机选取一个录音文件,点击页面中的 开始音频转写 按钮,对该文件进行语音转文字,转写完毕后,需要您根据对话文本进行话者角色配置。由于录音文件分为单轨录音和双轨录音,话者角色配置方式有所不同,下面会分别说明。

image.png

话者角色配置:语音转文本时,系统会自动将录音分为两个对话角色,但是出于一些客观因素系统无法准确识别哪个角色为客服,所以需要您根据文本内容来手工设置,选出哪一方为客服,则另一方即为客户。准确的进行话者角色配置非常重要,因为我们进行质检分析时所用的规则,很多时候都有检测范围的限制(即一个规则只检测客服或者客户),如果话者角色配置是错误的,那么将对质检结果的准确性产生极大影响。

3、单轨录音的话者角色配置

单轨录音的话者角色配置,音频转写完成后,如下图所示,一侧为客户,一侧为客服;角色的判断方式分为以下两种:

  • 系统自动判断:我们内置了一些常见的客服开场时所说的关键词,例如“您好、很高兴为您服务......”,从上往下对文本进行匹配,当匹配成功时,则认为当前角色为客服,另一侧即为客户;

  • 根据关键词判断客服人员:根据实际业务场景,填写一个或多个客服开场时常说的关键词,匹配上这些关键词时,则认为当前角色为客服,另一侧即为客户;

选择合适的角色判断方式,点击 验证 按钮,对话框中的文本会发生变化,请您自行判断是否正确,如不正确,可以对关键词进行调整;话者角色配置完毕后,点击页面底部的 完成创建 即可,此时该数据集内的所有文件,都将使用相同的角色判断方式。

image.png

需要强调的是,单轨录音的话者角色分离无法保证100%正确,建议您将呼叫中心生成的录音文件设置为 双轨录音,这样客户一个轨,客服一个轨,可以从根源上避免出现话者角色分离错误的情况。

4、双轨录音的话者角色配置

双轨录音的话者角色配置,音频转写完成后,如下图所示,根据对话文本,选择角色A的正确角色,角色B的角色会自动变化,选择无误后,点击页面底部的 完成创建 即可,此时该数据集内的所有文件,都将使用相同的角色判断方式。

image

列表操作

  • 编辑数据集:编辑数据集时只可修改话者角色配置,不可增加或删除数据集中的文件;

  • 删除数据集:删除后不可找回,但已经使用该数据集执行过的质检任务数据仍将保留;