Paraformer实时语音识别API详情_大模型服务平台百炼(Model Studio)-阿里云帮助中心

说明

支持的领域 / 任务：audio（音频） / asr（语音识别）

本文介绍Paraformer实时语音识别API的使用。

Paraformer的实时转写API能够持续识别长时间的语音数据流，并流式返回结果，适用于会议演讲、视频直播等场景。API提供丰富的输出选项，包括中间文字结果、句子级文字、词和时间戳等。

当前支持的模型如下，模型默认支持标点符号预测和逆文本正则化（ITN）：

模型名	模型简介
paraformer-realtime-v2	推荐使用。Paraformer最新实时语音识别模型，支持多个语种自由切换的视频直播、会议等实时场景的语音识别。可以通过language_hints参数选择语种获得更准确的识别效果。支持任意采样率的音频。支持的语言包括：中文（包含中文普通话和各种方言）、英文、日语、韩语。支持热词功能，用法请参考定制热词。支持的中文方言（单击查看详情）上海话、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、江西话、宁夏话、山西话、陕西话、山东话、四川话、天津话、云南话、粤语
paraformer-realtime-8k-v2	推荐使用。Paraformer最新8k中文实时语音识别模型，模型结构升级，具有更快的推理速度和更好的识别效果。支持8kHz电话客服等场景下的实时语音识别。仅支持中文热词。用法请参考定制热词。
paraformer-realtime-v1	Paraformer中文实时语音识别模型，支持视频直播、会议等实时场景下的语音识别。仅支持16kHz采样率的音频。
paraformer-realtime-8k-v1	Paraformer中文实时语音识别模型，支持8kHz电话客服等场景下的实时语音识别。

前提条件

已开通服务并获得API-KEY：获取API Key。建议您配置API Key到环境变量，从而避免在代码里显示配置API Key，降低泄漏风险。

您可以使用DashScope SDK进行语音合成，由于不同语言的SDK用法和参数格式不同，请根据您的编程语言选择对应的文档阅读，详情请参见：

如果您希望使用Java或Python外的其它编程语言开发Paraformer实时语音识别应用程序，可以通过WebSocket与服务进行通信，详情请参见WebSocket API。

在使用API过程中，如果调用失败并返回错误信息，请参见错误码进行解决。

请参见GitHub QA。