智能语音交互(Intelligent Speech Interaction)是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互功能。适用于智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等场景,在金融、司法、电商等多个领域均有应用。
全新的智能语言交互2.0版本现已发布。您可以使用自学习平台等工具改善语音识别效果,而且我们为您提供了功能更丰富的管理控制台和更易用的SDK,欢迎开通体验。
从0到1入门视频
一句话识别
对时长较短(一分钟以内)的语音进行识别,适用于较短的语音交互场景,如语音搜索、语音指令、语音短消息等,可集成在各类App、智能家电、智能助手等产品中。更多信息,请参见一句话识别接口说明。
实时语音识别
对不限时长的音频流做实时识别,达到“边说边出文字”的效果,内置智能断句,可提供每句话开始结束时间。可用于视频实时直播字幕、实时会议记录、实时法庭庭审记录、智能语音助手等场景。更多信息,请参见实时语音识别接口说明。
录音文件识别
对用户上传的录音文件进行识别,可用于呼叫中心语音质检、庭审数据库录入、会议记录总结、医院病历录入等场景。更多信息,请参见录音文件识别接口说明。
针对免费用户,系统可在24小时内完成识别并返回识别文本;针对付费客户,系统可在3小时之内完成识别并返回识别文本,一次性上传大规模数据(半小时内上传超过500小时时长的录音)的除外。有大规模数据转写需求的客户,可与售前专家另行沟通。
语音合成
通过先进的深度学习技术,将文本转换成自然流畅的语音。目前有多种音色可供选择,并提供调节语速、语调、音量等功能。适用于智能客服、语音交互、文学有声阅读和无障碍播报等场景。更多信息,请参见语音合成接口说明。
语音合成CosyVoice大模型
语音合成CosyVoice大模型服务是依托大规模预训练语言模型,深度融合文本理解和语音生成的一项新型语音合成技术,能够精准解析并诠释各类文本内容,将其转化为宛如真人般的自然语音。
离线语音合成
在弱网或无网状态下,通过设备本地的语音合成模型,将文本转换成自然流畅的语音。
目前有多种音色可供选择,并提供调节语速、语调、音量等功能。适用于车载导航、智能硬件、文学有声阅读和无障碍播报等场景。以SDK的方式集成,支持多种不同硬件平台。按照设备激活数量收费,收费更加灵活可控。更多信息,请参见离线语音合成接口说明。
语音合成声音定制(企业版)
为您提供深度定制的TTS(Text to Speech)声音功能:使用先进的深度学习技术,用更少的数据量,更快速高效地定制高表现力的TTS声音。将自然流畅的声音输出到服务或设备上。
如果您想体验定制的声音、了解定制流程,请查看语音合成声音定制(企业版)。如有任何需求和疑问,请联系:nls_support@service.aliyun.com。
自学习平台
您可以使用自学习平台提升识别效果。它提供了训练热词和自学习语言模型两种方式。语音识别服务中,通过添加热词和使用热词模型来改善识别结果。在司法、金融等领域,利用语言模型定制进行优化,提高该业务场景下的识别准确率。
学习路线
快速入门:快速体验智能语音交互服务。
产品定价:了解智能语音交互服务的计费情况。
开发指南:掌握相关术语、获取Access Token等内容。
管控台指南:详细了解管控台提供的各项功能。
接口参考选择需要的服务:一句话识别、实时语音识别、录音文件识别、语音合成等。
自学习平台:通过自学习平台的热词、语言模型定制提升识别效果。
最佳实践:了解智能语音交互服务的最佳实现方式。
常见问题:查询常见问题的解决方案。