本文档介绍在与 Qwen-ASR Realtime API 的 WebSocket 会话中,客户端向服务端发送的事件。
用户指南:模型介绍、功能特性和示例代码请参见实时语音识别-通义千问
session.update
用于更新会话配置,建议在 WebSocket 连接建立后首先发送该事件。建议在WebSocket连接建立成功后,立即发送此事件作为交互的第一步。如果未发送,系统将使用默认配置。
服务端成功处理此事件后,会发送session.updated事件作为确认。
| |
input_audio_buffer.append
用于将音频数据块追加到服务端的输入缓冲区。这是流式发送音频的核心事件。
不同场景下的区别:
VAD 模式:音频缓冲区用于语音活动检测,服务端会自动决定何时提交音频进行识别。
非VAD模式:客户端可以控制每个事件中的音频数据量,单个
input_audio_buffer.append事件中的audio字段内容最大为 15 MiB。建议流式发送较小的音频块以获得更快的响应。
重要提示:服务端不会对input_audio_buffer.append事件发送任何确认响应。
| |
input_audio_buffer.commit
非VAD模式下,用于手动触发识别。此事件通知服务端,客户端已发送完一段完整的语音,将当前缓冲区内的所有音频数据作为一个整体进行识别。
禁用场景:VAD模式。
服务端成功处理后,会发送input_audio_buffer.committed事件作为确认响应。
| |