语音数据集

更新时间:
复制为 MD 格式

本文介绍了语音数据集中的ASR泛热词表的作用、使用方式以及注意事项。

功能概述

ASR泛热词表是一种用于语音识别服务的数据集,用于改善特定领域识别效果不佳的情况。以下是关于ASR泛热词表的一些说明:

  • 作用:ASR泛热词表主要用于解决语音识别服务在特定识别场景下的问题,如地名、人名、特定品牌名等。通过将这些词添加到词表中,可以提高语音识别服务对这些词汇的识别效果。

  • 加载和生效:ASR泛热词表可以加载到场景和任务中,以使其生效。

  • 热词不支持标点符号:热词表中只能包含词汇,不支持包含标点符号。

  • 词汇不建议过长:为了保证识别的准确性,建议不将过长的词汇添加到热词表中。

  • 注意:目前每个热词表最多保存500个热词

image.png

功能入口

  1. 登录云联络中心控制台,在左侧导航栏选择实例管理-V2,单击具体实例的访问地址进入实例控制台。

    image

  2. 单击页面右上角菜单按钮,选择数字员工进入数字员工业务控制台。在左侧导航栏选择标注管理>数据集

    image

管理泛热词表

上传词表

单击语音数据集管理界面的上传下载规范模板,按照要求填写数据,单击查看本地文件上传或将文件拖拽上传,填写名称和备注信息,单击确定完成词表上传。

image

编辑热词表

支持修改名称、备注、热词词语以及对应权重(JSON样式)image

导出热词表

操作栏可点击导出按钮将该热词表导出,用于其他场景使用。

image

删除泛热词表

点击“删除”根据提示选择“确定”确认删除。image

批量导出热词表

支持批量导出,勾选对应的热词表,点击批量导出。image