Paraformer实时语音识别API详情
支持的领域 / 任务:audio(音频) / asr(语音识别)
相关指南:语音识别,语音识别Paraformer。
本文介绍Paraformer实时语音识别API的使用。
Paraformer的实时转写API能够持续识别长时间的语音数据流,并流式返回结果,适用于会议演讲、视频直播等场景。API提供丰富的输出选项,包括中间文字结果、句子级文字、词和时间戳等。
当前支持的模型如下,模型默认支持标点符号预测和逆文本正则化(ITN):
模型名 | 模型简介 |
paraformer-realtime-v2 | 推荐使用。Paraformer最新实时语音识别模型,支持多个语种自由切换的视频直播、会议等实时场景的语音识别。可以通过language_hints参数选择语种获得更准确的识别效果。支持任意采样率的音频。 支持的语言包括:中文(包含中文普通话和各种方言)、英文、日语、韩语。支持热词功能,用法请参考定制热词。 |
paraformer-realtime-8k-v2 | 推荐使用。Paraformer最新8k中文实时语音识别模型,模型结构升级,具有更快的推理速度和更好的识别效果。支持8kHz电话客服等场景下的实时语音识别。仅支持中文热词。用法请参考 定制热词。 |
paraformer-realtime-v1 | Paraformer中文实时语音识别模型,支持视频直播、会议等实时场景下的语音识别。仅支持16kHz采样率的音频。 |
paraformer-realtime-8k-v1 | Paraformer中文实时语音识别模型,支持8kHz电话客服等场景下的实时语音识别。 |
前提条件
已开通服务并获得API-KEY:获取API Key。建议您配置API Key到环境变量,从而避免在代码里显示配置API Key,降低泄漏风险。
API详情
您可以使用DashScope SDK进行语音合成,由于不同语言的SDK用法和参数格式不同,请根据您的编程语言选择对应的文档阅读,详情请参见:
Java:Java API
Python:Python API
如果您希望使用Java或Python外的其它编程语言开发Paraformer实时语音识别应用程序,可以通过WebSocket与服务进行通信,详情请参见WebSocket API。
错误码
在使用API过程中,如果调用失败并返回错误信息,请参见错误码进行解决。
更多示例
更多示例,请参见GitHub。
常见问题
请参见GitHub QA。