本文介绍了智能语音交互产品发布后的更新情况。
2020年11月27日
新增
录音文件识别极速版支持全场景的语音识别模型。
管控台支持录音文件识别极速版的调用量查询。
优化
改进令牌生成机制,增加令牌有效期,避免原有“每24小时更新令牌”机制下,可能造成的请求失败发生。
优化ASR对WAV文件的支持。支持更多格式的WAV文件头,减少文件头对识别结果的影响。
修复
录音文件识别极速版使用16k模型进行8k语音识别时没有直接返回错误,导致超时断开的问题。
2020年8月23日
新增
语音合成的SSML增加资源标签,可解析“多模态交互使用的离线资源”,并可取代时间戳中每个字的位置信息。
语音合成的RESTful接口支持在管控台配置说话人、音量、语速和语调参数功能,方便接口调参配置。
语音合成新增文学场景发音人:艾楠、艾颜、艾浩、艾茗,为您提供更多选择。
优化
实时语音识别默认最大断句时长由60秒缩短至15秒,方便您进行相关接口调用。
修复
语音识别16k中文通用模型,改善语音活动检测(Voice Activity Detectio)效果,解决纯静音数据误检出语音的问题。
语音识别8k中文客服质检/8k英文客服质检/16k韩语模型:语言模型常规更新,修复部分识别有误的场景。
2020年7月23日
新增
自学习模型全面开放免费使用,为您提供零成本个性化语音定制服务,助力业务创新。
自学习平台训练流程
新增推荐最佳基线模型,方便您进行训练。
结合自动化测试,增加模型可量化的测试指标结果。
长文本Restful接口集成字幕能力对外正式发布,官网开发文档上线。
优化
上线Android/iOS双端新版SDK:
Android SDK体积减少34.6%、iOS SDK体积减少17.5%,经历日亿次调用次数考验,稳定性极强。
完善SDK的状态管理(开/关音频、数据推送等),您可以专注业务实现而无需进行复杂的状态与线程管理。
与全链路解决方案保持接口一致。后续可无缝对接唤醒、声纹、对话理解、离线语音合成等智能语音交互场景。
修复
英文后处理效果优化,解决部分情况下,启用标点后识别结果格式错误的问题。
2020年7月9日
优化
一句话识别/实时语音识别/录音文件识别8K音频采样率的英文识别模型更新,在通用测试集字识别准确率没有下降的情况下,提升模型口音覆盖的广度,同时在语言模型上更加通用。
修复
语音合成模型修复如下内容:
Abby(发音人名称):降低漏字率。
Wendy(发音人名称):解决较长文本合成不稳定的问题。
英文场景:解决英文文本出现非标空格导致单词解析失败的情况,提高单词识别准确率。
中文场景:修复多音字和分词问题。
在文档使用中是否遇到以下问题
更多建议
匿名提交