如何对智能对话分析的数据集进行管理-阿里云帮助中心

数据集是一个或多个录音文件组成的集合，您可以将呼叫中心已经生成的录音文件创建为数据集，然后使用数据集发起数据集质检任务。

新建数据集

1、上传音频文件

点击，数据集质检-数据集管理，页面列表上方的 新建数据集 按钮，如下图所示，按照页面提示进行填写，并按照页面提示的要求上传录音文件，对于某些不符合标准的音频，上传时会做自动转码处理，比如将采样率转为8000Hz，单击下载音频样例。上传完毕后点击页面底部的 下一步 按钮，进行话者角色配置；

2、开始音频转写

系统会随机选取一个录音文件，点击页面中的 开始音频转写 按钮，对该文件进行语音转文字，转写完毕后，需要您根据对话文本进行话者角色配置。由于录音文件分为单轨录音和双轨录音，话者角色配置方式有所不同，下面会分别说明。

话者角色配置：语音转文本时，系统会自动将录音分为两个对话角色，但是出于一些客观因素系统无法准确识别哪个角色为客服，所以需要您根据文本内容来手工设置，选出哪一方为客服，则另一方即为客户。准确的进行话者角色配置非常重要，因为我们进行质检分析时所用的规则，很多时候都有检测范围的限制（即一个规则只检测客服或者客户），如果话者角色配置是错误的，那么将对质检结果的准确性产生极大影响。

3、单轨录音的话者角色配置

单轨录音的话者角色配置，音频转写完成后，如下图所示，一侧为客户，一侧为客服；角色的判断方式分为以下两种：

系统自动判断：我们内置了一些常见的客服开场时所说的关键词，例如“您好、很高兴为您服务......”，从上往下对文本进行匹配，当匹配成功时，则认为当前角色为客服，另一侧即为客户；
根据关键词判断客服人员：根据实际业务场景，填写一个或多个客服开场时常说的关键词，匹配上这些关键词时，则认为当前角色为客服，另一侧即为客户；

选择合适的角色判断方式，点击验证按钮，对话框中的文本会发生变化，请您自行判断是否正确，如不正确，可以对关键词进行调整；话者角色配置完毕后，点击页面底部的 完成创建 即可，此时该数据集内的所有文件，都将使用相同的角色判断方式。

需要强调的是，单轨录音的话者角色分离无法保证100%正确，建议您将呼叫中心生成的录音文件设置为 双轨录音，这样客户一个轨，客服一个轨，可以从根源上避免出现话者角色分离错误的情况。

4、双轨录音的话者角色配置

双轨录音的话者角色配置，音频转写完成后，如下图所示，根据对话文本，选择角色A的正确角色，角色B的角色会自动变化，选择无误后，点击页面底部的 完成创建 即可，此时该数据集内的所有文件，都将使用相同的角色判断方式。

列表操作

编辑数据集：编辑数据集时只可修改话者角色配置，不可增加或删除数据集中的文件；
删除数据集：删除后不可找回，但已经使用该数据集执行过的质检任务数据仍将保留；