全部产品

简介

更新时间:2017-08-07 14:00:30   分享:   

语音识别服务,可以把语音识别为文字,针对不同的使用场景,阿里云提供如下三种服务:

  • 「 一句话识别 」对一分钟内的短语音实时识别,适用于对话聊天,控制口令等较短的语音识别场景。
  • 「 实时语音识别 」:对长时间的语音数据流实时识别,适用于会议演讲、视频直播等长时间不间断识别的场景。
  • 「 录音文件识别 」:对录音文件中的语音做识别。

各服务的主要差别如下:

服务 时效性 支持的语音格式 支持调用方式
一句话识别 SDK 实时识别 PCM/WAV/SPEEX/OPUS[1] Java/C++/Android/iOS
一句话识别 RESTful[2] 非实时,不超过1分钟 PCM/WAV/SPEEX/OPUS[1] HTTP RESTful API
实时语音识别 实时识别 PCM/WAV Java/C++/Android/iOS
录音文件识别 非实时,免费版24小时内 支持大部分常见编码格式,WAV/MP3效果最佳 HTTP RESTful API
  • 注[1]:OPUS编码格式说明
  • 注[2]:一句话RESTful调用方式与其他方式差异较大,所以单独列出

附加能力

  • 针对无线使用场景,我们在移动端SDK中集成了录音(Recoder)、静音检测(VAD)、断网恢复后续传等功能,可以极大地简化App开发。
  • 针对用户领域特有的关键词,我们提供用户自定义热词功能,可以显著提高这些关键词的识别率。
  • 一句话识别服务集成了自然语言理解功能,支持对识别出的文字做分析,返回语义结果。
本文导读目录
本文导读目录
以上内容是否对您有帮助?