全部产品
云市场
云游戏

自动化测试

更新时间:2020-06-02 20:44:06

自动化测试

当你想对模型的识别准确率有一个量化衡量时,可以选择自动化测试建立测试任务对模型进行测试。尤其对于自学习模型训练来说,当测试集不变的情况下,通过自动化测试可以看到每次自学习模型训练对于准确率的提升或者降低。

1. 建立测试任务,点击“创建任务”按钮,开始创建自动化测试任务

createTast

2. 选择或者上传测试集。可上传的测试集类型目前支持标注好的测试集以及纯文本的测试集。当测试数据集有异常时,数据集解析以及测试任务都会失败。

2.1标注测试集:

标注测试集适用于有音频数据,同时又有标注的结果。按照下列格式上传即可,系统将会自动检测采样率,当采样率非标准采样率(非16K或8K采样率)时,系统会自动调整为适合的采样率。

2.1.1数据常见目录结构

p2

  • 路径中不允许有中文
  • 每个 wav 文件名必须是唯一的
  • wav文件和transcription标注文件必须分别放置在两个目录。
  • 单通道,8KHz或16KHz采样率,16bit采样位数的PCM编码wav文件(可用Sox工具通过Channels, Sample Rate, Sample Encoding进行判断)
  • wav文件后缀为 “.wav”,标注文件后缀为 “.txt”, 注意后缀大小写(.WAV 不合格)

2.1.2标注格式

p3

备注:

  1. 标注文件格式:UTF-8无BOM编码;各字段间用tab键分隔
  2. wav文件和transcription标注文件必须分别放置在两个目录;trans目录中可以包含多个txt文件,每个txt文件中指定多个wav文件对应的标注文本
  3. 标注文件第一列音频文件名需要和wav目录的音频文件名对应(注意文件名带.wav后缀)
  4. 标注文本应该是归一化后的(按照实际读音转写成汉字,”5256”->”五千二百五十六”,”2004”->”二零零四”或”两千零四”,”19%”->”百分之十九”等) ,wav 文件名不需要带目录,因为文件名已经是唯一的.

2.2纯文本测试集

纯文本测试集适用于没有音频数据,只有文本语料数据的场景,我们会通过语音合成帮您合成相应的音频数据构造标注好的测试集。相应要求如下:

  1. 请上传1个文本文件,仅支持txt格式(UTF-8无BOM编码)
  2. 请不要带标点符号,每行不超过300字p4

3. 选择测试对象

选择希望测试的模型p5

4. 完成创建,并点击开始测试

p6

5. 你也可以先上传测试集,然后创建任务时可以选择相应测试集进行测试。

  • 注意,采样率相同的测试集可以选择多个一起进行测试。测试集格式如前所述。
  • 采样率相同的测试集可以选择多个一起进行测试。测试集格式如前所述。p7

之后的迭代版本中,自动化测试将会与自学习模型训练流程进行关联和打通,通过上传测试集,系统将会为你推荐识别率最高的基础模型。基于此基础模型之上的自学习模型定制是效率最高的。同时,测试对象将从模型向应用进行过渡,对应用维度内的热词以及其他定制化优化进行整体测试,以保证识别率最优。