Paraformer实时语音识别API详情

更新时间: 2025-02-10 16:41:45
说明

支持的领域 / 任务:audio(音频) / asr(语音识别)

相关指南语音识别语音识别Paraformer

本文介绍Paraformer实时语音识别API的使用。

Paraformer的实时转写API能够持续识别长时间的语音数据流,并流式返回结果,适用于会议演讲、视频直播等场景。API提供丰富的输出选项,包括中间文字结果、句子级文字、词和时间戳等。

当前支持的模型如下,模型默认支持标点符号预测和逆文本正则化(ITN):

模型名

模型简介

paraformer-realtime-v2

推荐使用。Paraformer最新实时语音识别模型,支持多个语种自由切换的视频直播、会议等实时场景的语音识别。可以通过language_hints参数选择语种获得更准确的识别效果。支持任意采样率的音频。

支持的语言包括:中文(包含中文普通话和各种方言)、英文、日语、韩语。支持热词功能,用法请参考定制热词

支持的中文方言(单击查看详情)

上海话、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、江西话、宁夏话、山西话、陕西话、山东话、四川话、天津话、云南话、粤语

paraformer-realtime-8k-v2

推荐使用。Paraformer最新8k中文实时语音识别模型,模型结构升级,具有更快的推理速度和更好的识别效果。支持8kHz电话客服等场景下的实时语音识别。仅支持中文热词。用法请参考 定制热词

paraformer-realtime-v1

Paraformer中文实时语音识别模型,支持视频直播、会议等实时场景下的语音识别。仅支持16kHz采样率的音频。

paraformer-realtime-8k-v1

Paraformer中文实时语音识别模型,支持8kHz电话客服等场景下的实时语音识别。

前提条件

已开通服务并获得API-KEY:获取API Key。建议您配置API Key到环境变量,从而避免在代码里显示配置API Key,降低泄漏风险。

API详情

您可以使用DashScope SDK进行语音合成,由于不同语言的SDK用法和参数格式不同,请根据您的编程语言选择对应的文档阅读,详情请参见:

如果您希望使用Java或Python外的其它编程语言开发Paraformer实时语音识别应用程序,可以通过WebSocket与服务进行通信,详情请参见WebSocket API

错误码

在使用API过程中,如果调用失败并返回错误信息,请参见错误码进行解决。

更多示例

更多示例,请参见GitHub

常见问题

请参见GitHub QA

上一篇: 快速开始 下一篇: Java API
阿里云首页 大模型服务平台百炼 相关技术圈