实时语音识别API交互协议与模式-大模型服务平台百炼-阿里云

实时语音识别-通义千问服务通过 WebSocket 协议，接收实时音频流并实时转写。支持VAD 模式和Manual 模式交互流程。

用户指南：模型介绍、功能特性和示例代码请参见实时语音识别-通义千问

URL

编码时，将<model_name>替换为实际的模型。

wss://dashscope.aliyuncs.com/api-ws/v1/realtime?model=<model_name>

"Authorization": "bearer <your_dashscope_api_key>"

服务端自动检测语音的起点和终点（断句）。开发者只需持续发送音频流，服务端会在检测到一句话结束时自动返回最终识别结果。此模式适用于实时对话、会议记录等场景。

启用方式：配置客户端session.update事件的session.turn_detection参数。

由客户端控制断句。客户端需要发送完一整句话的音频后，再发送一个input_audio_buffer.commit事件来通知服务端。此模式适用于客户端能明确判断语句边界的场景，如聊天软件中的发送语音。

启用方式：将客户端session.update事件的session.turn_detection设为null。