初次使用智能语音服务,请先阅读快速开始系列文档,快速体验使用过程,而后按顺序阅读如下文档,以便更好地使用智能语音交互服务。
文档资源 | 描述 |
---|---|
介绍与智能语音交互服务相关基本概念。 | |
在管理控制台上创建项目、配置参数等。 | |
获取访问令牌后再调用智能语音交互服务。 | |
调用语音交互服务 | |
优化语音识别效果。 | |
语音合成定制服务 | 定制语音合成模型 |
各服务对比
服务 | 时效性 | 功能 | 适用场景 | 支持的语音格式 | 支持调用方式 | 免费调用量 | 购买 |
---|---|---|---|---|---|---|---|
一句话识别 | 实时 | 识别一分钟内的短语音。 | APP语音搜索、语音电话客服、对话聊天、控制口令等场景。 | PCM(无压缩的PCM或WAV文件)、OPUS | Java/C++/Android/iOS | 最大2个并发 | 可单独购买 |
实时语音识别 | 实时 | 识别长时间的语音数据流。 | 会议演讲、视频直播等长时间不间断语音场景。 | PCM(无压缩的PCM或WAV文件) | Java/C++/Android/iOS | 最大2个并发 | 可单独购买 |
语音合成 | 实时 | 合成长度不超过300个字符(UTF-8编码)的文本内容。 | 需要人工合成音的场景。 | PCM、WAV、MP3 | Java/C++/Android/iOS | 最大2个并发 | 可单独购买 |
录音文件识别 | 非实时 | 录音文件上传后(文件大小不超过512 MB),针对免费用户,可在24小时内完成识别并返回识别文本;针对付费用户,可在6小时内完成识别并返回识别文本。 说明 一次性上传大规模数据(半小时内上传超过500小时时长的录音)的除外,如果您有大规模数据转写需求,可与售前专家联系。 | 非实时识别场景。 | 支持单轨/双轨的WAV、MP3 | Java/C++/GO/.NET/Node.js/PHP/Python | 每个自然日最多识别2小时时长的录音文件 | 可单独购买 |
录音文件识别极速版 | 实时 | 识别文件大小不超过100 MB,30分钟以内时长的音频,转写完成时间不超过10秒。 | 短视频编辑工具、 电台和报社字幕内容。 | AAC、MP3、OPUS、WAV | HTTP POST/Android/iOS | 暂不支持免费试用 | 可单独购买 |
长文本语音合成 | 非实时 | 将超长文本(千字或万字)合成为语音二进制数据。 | 阅读小说、文章等场景。 | PCM、WAV、MP3 | JAVA/C++/RESTful API | 暂不支持免费试用 | 可单独购买 |
离线语音合成 | 实时 | 无网状态下,离线进行本地的语音合成。 | 语音播报、新闻小说、有声阅读、无障碍播报。 | PCM、WAV、MP3 | iOS/Android | 联系售前可申请3个设备授权 | 可单独购买 |
设备端语音交互SDK | 实时 | 远场信号处理、语音唤醒、人声检测、在线语音识别以及在线语音合成。 | 智能音箱、儿童教育故事机、语音IoT家电等需要远近场语音交互的智能硬件设备端。 | PCM、WAV | Android/iOS/Linux/RTOS | 10个免费设备授权 | 可单独购买 |
除录音文件识别和录音文件识别极速版以外的其他识别服务只支持单声道(mono)语音数据。
识别服务只支持8000Hz/16000Hz采样率、16bit采样位数的音频。
在文档使用中是否遇到以下问题
更多建议
匿名提交