智能语音交互的产品核心优势-智能语音交互(ISI)-阿里云帮助中心

本文为您介绍智能语音交互的产品核心优势。

语音识别

识别准确率高
基于SAN-M自研的“识音石”通用端到端语音识别框架，中文识别准确率可达业内最高水平；
在输入法、客服、会议等领域，文字识别错误率相比上一代系统下降10%～30%，大幅提高了语音识别的精度。
识别速度快
采用“字”级别建模单元及自研模型推理引擎，并发推理速度相比业内主流推理框架提升10倍以上；
中国独创的LFR解码技术，在不损失识别精度的情况下，将解码速率提高3倍以上，大幅缩短反馈时间，提升用户体验。
独创的模型优化工具
结合模型优化工具子产品，针对特定的领域定制专属模型，最大限度地提升识别效果。
丰富的功能
支持音字同步、语种识别、声纹识别等丰富功能。
广泛的领域覆盖
适用于智能问答、语音指令、音视频字幕、语音搜索、会议谈话转译、语音质检，公安消防接警、法庭审讯记录等各类场景。

语音合成

技术领先
兼顾了多级韵律停顿，达到自然合成韵律的目的，综合利用声学参数和语言学参数，建立基于深度学习的多重自动预测模型。
效果逼真
在本地端实现了基于Knowledge-Aware Neural TTS (KAN-TTS) 语音合成技术，基于深度神经网络和机器学习，将文本转换成真实饱满、抑扬顿挫、富有表现力的语音，使得离线语音合成效果趋近于在线合成效果。同样的语音合成声音定制的合成效果几乎可以媲美真人录音。
音色个性化
支持中英文等多种语言，多种音色，多种场景及多种风格的语音合成声音，并可支持低数据量的离线合成声音定制。
听感自然
经海量音频数据训练，使合成音真实饱满、抑扬顿挫、富有表现力，MOS评分达到业内领先水准。
深度定制
根据用户需求定制音库，满足用户的个性化应用需求，提供标准男女声、温柔甜美女声等多风格选择，支持标记语言（SSML）方式的合成方式，音量、语速、音高等参数也支持动态调整。支持客户指定自有数据合成TTS声音。
高效稳定
接口简单易集成，运行稳定、兼容性强、首包延迟小，内存占用少，CPU占用低，对于低配硬件也有对应的解决方案。
节省成本
离线语音合成无需联网即可完成实时语音合成，按设备数授权，成本可控。声音定制中需要的数据量门槛更低，在中文普通话场景，2000句起即可合成自然流畅效果的声音，加入英文数据后，还可实现中英混读效果，录音和标注的时间成本大幅减少，尽显价格优势。
多领域覆盖
在智能家居、车载、导航、金融、运营商、物流、房地产、教育、有声读物等众多领域积累了大量的词库，使阿里语音合成技术对各领域、各行业的词汇发音更准确。

自学习平台

易用
自学习平台颠覆性地提供一键式自助语音优化方案，极大地降低进行语音智能优化所需要的门槛，让不懂技术的业务人员也可以显著提高自身业务识别准确率。
快速
自学习平台能够在数分钟之内完成业务专属定制模型的优化测试上线，更能支持业务相关热词的实时优化，一改传统定制优化长达数周甚至数月的漫长交付弊端。
准确
自学习平台优化效果在很多内外部合作伙伴和项目上得到了充分验证，很多项目最终通过自学习平台不仅解决了可用性问题，还在项目中超过了竞争对手使用传统优化方式所取得的优化效果。