全部产品
云市场

智能语音交互

更新时间:2019-10-11 13:49:23

简介

智能语音交互(Intelligent Speech Interaction),是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中,包括智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等场景,在金融、保险、司法、电商等多个领域均有应用案例。全新的2.0版本现已发布,您可以使用自学习平台等工具改善语音识别效果,而且提供了功能更丰富的管理控制台和更易用的SDK,欢迎开通体验。

提供的服务

一句话识别

对时长较短(一分钟以内)的语音进行识别,适用于较短的语音交互场景,如语音搜索、语音指令、语音短消息等,可集成在各类App、智能家电、智能助手等产品中。详细介绍请阅读 一句话识别 > 接口说明

产品优势:

  • 识别准确率高
    国内独创的字级LC-BLSTM/DFSMN-CTC建模,相对业界传统CTC方法降低了20%的错误率,大幅提高了语音识别的精度。
  • 超快的解码速率
    国内独创的LFR解码技术,在不损失识别精度的情况下,将解码速率提高了3倍以上,大幅缩短了反馈时间,提升用户体验。
  • 独创的模型优化工具
    可以结合模型优化工具子产品,针对特定的领域定制专属模型,最大限度的提升识别效果。
  • 广泛的领域覆盖
    支持金融、保险、司法、电商、智能家居等多个领域。

适用场景:

  • 语音搜索
    支持各种场景下的语音搜索,比如地图导航、浏览器搜索等。可以集成到任何形式的手机应用中,最大限度的解放双手。
  • 语音指令
    通过语音命令控制智能设备,实现快捷便利的操作。比如控制空调的开关、电视的换台等。可以集成到智能家居等设备中。
  • 语音短消息
    通过语音发送或者接收短消息。在不方便打字的情况下实现快速便捷的短信操作,比如音频短信转文字。

实时语音识别

对不限时长的音频流做实时识别,达到“边说边出文字”的效果,内置智能断句,可提供每句话开始结束时间。可用于视频实时直播字幕、实时会议记录、实时法庭庭审记录、智能语音助手等场景。详细介绍请阅读 实时语音识别 > 接口说明

产品优势:

  • 识别准确率高
    国内独创的字级LC-BLSTM/DFSMN-CTC建模,相对业界传统CTC方法降低了20%的错误率,大幅提高了语音识别的精度。
  • 超快的解码速率
    国内独创的LFR解码技术,在不损失识别精度的情况下,将解码速率提高了3倍以上,大幅缩短了反馈时间,提升用户体验。
  • 独创的模型优化工具
    可以结合模型优化工具子产品,针对特定的领域定制专属模型,最大限度的提升识别效果。
  • 广泛的领域覆盖
    广泛的领域覆盖,支持金融、保险、司法、电商、智能家居等多个领域。

适用场景:

  • 视频实时直播字幕
    现场演讲场景、直播场景下,将视频中的音频实时转写成字幕。还可以进一步对内容进行监控。
  • 实时会议记录
    将会议中的音频实时转换成文字,特别适用于电视会议等远距离场景。
  • 实时法庭庭审记录
    将庭审各方在庭审过程中的语音转变为文字,供各方在庭审页面上查看,减少书记员的工作。
  • 实时客服记录
    将呼叫中心的语音实时的转写到文字,可以实现实时的质检、监控等。

录音文件识别

对用户上传的录音文件进行识别,上传完之后24小时内完成识别并返回识别文本。可用于呼叫中心语音质检、庭审数据库录入、会议记录总结、医院病历录入等场景。详细介绍请阅读 录音文件识别 > 接口说明

产品优势:

  • 识别准确率高
    国内独创的字级LC-BLSTM/DFSMN-CTC建模,相对业界传统CTC方法降低了20%的错误率,大幅提高了语音识别的精度。
  • 超快的解码速率
    国内独创的LFR解码技术,在不损失识别精度的情况下,将解码速率提高了3倍以上,大幅缩短了反馈时间,提升用户体验。
  • 独创的模型优化工具
    可以结合模型优化工具子产品,针对特定的领域定制专属模型,最大限度的提升识别效果。
  • 广泛的领域覆盖
    支持金融、保险、司法、电商、智能家居等多个领域。

适用场景:

  • 呼叫中心语音质检
    上传呼叫中心的录音文件,通过录音文件识别得到文本,进一步通过文本检索,检查有无违规话术、敏感词等信息。
  • 庭审数据库录入
    上传庭审记录的录音文件,进行识别之后,将识别文本录入数据库。
  • 会议记录总结
    对会议记录的音频文件进行识别,然后通过人工或者自动的方法,对会议记录作出总结。
  • 医院病历录入
    手术时通过音频记录医生的操作,通过录音文件识别得到文本,提高病例录入的效率。

语音合成

语音合成服务,通过先进的深度学习技术,将文本转换成自然流畅的语音。目前有多种音色可供选择,并提供调节语速、语调、音量等功能。适用于智能客服、语音交互、文学有声阅读和无障碍播报等场景。详细介绍请阅读 语音合成 > 接口说明

产品优势:

  • 技术领先
    技术上兼顾了多级韵律停顿,达到自然的合成韵律目的,综合利用声学参数和语言学参数,建立基于深度学习的多重自动预测模型。
  • 多领域覆盖
    在智能家居、车载、导航、金融、银行、保险、证券、运营商、物流、房地产、教育等众多领域积累了大量的词库,让阿里语音合成技术对各领域、各行业的词汇发音更准确。
  • 听感自然
    使用海量的音频数据训练合成数据,合成音真实饱满、抑扬顿挫、富有表现力,MOS评分达到业内顶级水准。
  • 深度定制
    可根据用户需求定制音库,满足用户的个性化应用需求,提供标准男女声,温柔甜美女声等多风格的选择,支持标记语言(SSML)方式的合成方式,音量、语速、音高等参数也支持动态调整。

适用场景:

  • 智能客服
    提供多行业多场景的智能客服语音合成能力。提高解答效率,提升客户满意度,降低呼叫中心人工成本。
  • 智能设备
    为智能家居、音箱、车载和可穿戴设备等赋予一个最有温度的声音。
  • 文学有声阅读
    让富有感染力的声音给你讲故事、读小说和播新闻,满足“懒人”的阅读需求。
  • 无障碍播报
    无论是健全人还是残疾人,无论是年轻人还是老年人,将文字转成流畅动听的自然语言声音。

语音合成声音定制

为企业提供深度定制TTS声音的能力。通过先进的深度学习技术,用更少的数据量,更快速高效地为客户定制个性化语音合成声音。将自然流畅的TTS声音带到服务或设备上。

您可以在阿里云官网体验定制的声音,了解定制流程。如有任何需求和疑问,请直接联系:nls_support@service.aliyun.com。

产品优势:

  • 技术领先
    使用最新推出的Knowledge-Aware Neural TTS (KAN-TTS) 语音合成技术,基于深度神经网络和机器学习,将文本转换成真实饱满、抑扬顿挫、富有表现力的语音。合成效果与真人录音相比,几乎以假乱真。
  • 数据量门槛低
    在中文普通话场景,实现优质数据2000句起即可合成自然流畅效果的声音。加入英文数据后,还可实现中英混读效果。
  • 节省成本
    由于数据量门槛低,录音和标注的时间成本大幅减少,尽显价格优势。
  • 深度定制
    支持客户指定自有数据合成TTS声音。同时提供海量候选发音人资源, 多种音色和风格源备选,且保证顶级录音棚采集高品质录音数据。

适用场景:

  • 智能客服
    提供多行业多场景的智能客服语音合成能力。提高解答效率,提升客户满意度,降低呼叫中心人工成本。
  • 智能设备
    为智能家居、音箱、车载和可穿戴设备等赋予一个最有温度的声音。
  • 文学有声阅读
    让富有感染力的声音给你讲故事、读小说和播新闻,满足“懒人”的阅读需求。
  • 无障碍播报
    无论是健全人还是残疾人,无论是年轻人还是老年人,将文字转成流畅动听的自然语言声音

自学习平台

您可以使用自学习平台提升识别效果。自学习平台提供了训练热词和自学习模型的两种方式,帮助您提升上述识别服务的识别效果。

产品优势:

  • 易用
    自学习平台颠覆性地提供一键式自助语音优化方案,极大地降低进行语音智能优化所需要的门槛,让不懂技术的业务人员也可以来显著提高自身业务识别准确率。
  • 快速
    自学习平台能够在数分钟之内完成业务专属定制模型的优化测试上线, 更能支持业务相关热词的实时优化,一改传统定制优化长达数周甚至数月的漫长交付弊端。
  • 准确
    自学习平台优化效果在很多内外部合作伙伴和项目上得到了充分验证,很多项目最终通过自学习平台不光解决了效果可用性问题,还在项目中超过了竞争对手使用传统优化方式所取得的优化效果。

适用场景:

  • 热词:在语音识别服务中,如果在您的业务领域有一些特有的词,默认识别效果较差的时候可以考虑使用热词功能,将这些词添加到词表,改善这部分词的识别结果。
  • 自学习模型:支持您上传业务相关的文本语料训练自学习模型,可以在该业务领域中获得更高的识别准确率,比如司法、金融等领域。

学习路线图

  1. 计量计费 了解智能语音交互服务的计费情况。
  2. 快速开始 快速体验智能语音交互服务。
  3. 开发指南 掌握相关术语、获取Token等内容。
  4. 管控台用户指南 详细了解管控台提供的各项功能。
  5. 选择需要的服务:一句话识别、实时语音识别、录音文件识别、语音合成 根据您的需求,选择合适的服务接入。
  6. 自学习平台 通过自学习平台的热词、自学习模型提升识别效果。
  7. 最佳实践 了解智能语音交互服务的最佳实现方式。
  8. 常见问题 查询常见问题的解决方案。