全部产品
弹性计算 会员服务 网络 安全 移动云 数加·大数据分析及展现 数加·大数据应用 管理与监控 云通信 阿里云办公 培训与认证 智能硬件
存储与CDN 数据库 域名与网站(万网) 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 更多
智能语音交互

简介

更新时间:2018-06-27 10:59:19

注意:要使用语音识别服务需要先注册阿里云账号,并开通智能语音服务,具体步骤请参考账号和服务申请

语音识别服务,可以把语音识别为文字,针对不同的使用场景,阿里云提供如下三种服务:

  • 「 一句话识别 」对一分钟内的短语音实时识别,适用于对话聊天,控制口令等较短的语音识别场景。
  • 「 实时语音识别 」:对长时间的语音数据流实时识别,适用于会议演讲、视频直播等长时间不间断识别的场景。
  • 「 录音文件识别 」:对录音文件中的语音做识别。

各服务的主要差别如下:

服务 时效性 支持的语音格式 支持调用方式 免费调用量
一句话识别 SDK 实时识别 PCM/WAV/SPEEX/OPUS[1] Java/C++/Android/iOS 最大10个并发
一句话识别 RESTful[2] 非实时,不超过1分钟 PCM/WAV/SPEEX/OPUS[1] HTTP RESTful API 最大10个并发
实时语音识别 实时识别 PCM/WAV Java/C++/Android/iOS 最大10个并发
录音文件识别 非实时,免费版24小时内 支持大部分常见编码格式,WAV/MP3效果最佳 HTTP RESTful API 每自然日50个任务
  • 注[1]:OPUS编码格式说明
  • 注[2]:一句话RESTful调用方式与其他方式差异较大,所以单独列出

附加能力

  • 针对无线使用场景,我们在移动端SDK中集成了录音(Recoder)、静音检测(VAD)、断网恢复后续传等功能,可以极大地简化App开发。
  • 针对用户领域特有的关键词,我们提供用户自定义热词功能,可以显著提高这些关键词的识别率。
本文导读目录