本文介绍了语音数据集中的ASR泛热词表的作用、使用方式以及注意事项。
功能概述
ASR泛热词表是一种用于语音识别服务的数据集,用于改善特定领域识别效果不佳的情况。以下是关于ASR泛热词表的一些说明:
-
作用:ASR泛热词表主要用于解决语音识别服务在特定识别场景下的问题,如地名、人名、特定品牌名等。通过将这些词添加到词表中,可以提高语音识别服务对这些词汇的识别效果。
-
加载和生效:ASR泛热词表可以加载到场景和任务中,以使其生效。
-
热词不支持标点符号:热词表中只能包含词汇,不支持包含标点符号。
-
词汇不建议过长:为了保证识别的准确性,建议不将过长的词汇添加到热词表中。
-
注意:目前每个热词表最多保存500个热词。
在语音数据集页面的ASR泛热词表Tab下,可查看已创建的热词表列表,包括热词表名称、热词表ID、描述、最后更新时间和热词数量等信息。单击上传可新增热词表,单击操作列的编辑或导出可管理单个热词表,也可勾选多个热词表后单击批量导出。
功能入口
-
登录云联络中心控制台,在左侧导航栏选择实例管理-V2,单击具体实例的访问地址进入实例控制台。
-
单击页面右上角菜单按钮,选择数字员工进入数字员工业务控制台。在左侧导航栏选择标注管理>数据集。
进入 语音数据集 页面,默认显示 ASR泛热词表 页签,可通过 上传 按钮添加热词表数据。
管理泛热词表
上传词表
单击语音数据集管理界面的上传、下载规范模板,按照要求填写数据,单击查看本地文件上传或将文件拖拽上传,填写名称和备注信息,单击确定完成词表上传。
编辑热词表
支持修改名称、备注、热词词语以及对应权重(JSON样式)。在ASR泛热词表 Tab 的热词表列表中,单击目标热词表操作列的编辑,弹出编辑热词表对话框。可修改名称(最多 15 个字符)、备注,以及以 JSON 格式编辑词语及对应的权重,例如 {"苹果": "2", "草莓": "4", "西瓜": "3"}。编辑完成后单击确定。
导出热词表
在操作栏可点击导出按钮将该热词表导出,用于其他场景使用。
删除泛热词表
点击“删除”根据提示选择“确定”确认删除。
批量导出热词表
支持批量导出,勾选对应的热词表,点击批量导出。在语音数据集 > ASR泛热词表页面的热词表列表中,勾选需要导出的热词表前的复选框(也可单击表头复选框全选),页面底部将出现批量导出按钮,单击该按钮即可批量导出所选热词表。