本文介绍 qwen3-livetranslate-flash-realtime API 的客户端事件。
相关文档:实时音视频翻译-通义千问。
session.update
客户端建立 WebSocket 连接后,需首先发送该事件,用于更新会话的默认配置。
服务端收到 session.update 事件后,会校验参数。如果参数不合法,则返回错误;如果参数合法,则更新并返回完整的配置。
type 事件类型,固定为 | |
session 会话配置。 |
input_audio_buffer.append
向输入音频缓冲区追加音频字节。服务端使用此缓冲区检测并决定语音提交时机。
type 事件类型,固定为 | |
audio Base64 编码的音频数据。 |
input_image_buffer.append
用于将图像数据添加到图像缓冲区。图像可来自本地文件,或从视频流实时采集。
目前对图片输入有以下限制:
图像格式必须为 JPG 或 JPEG。建议分辨率为 480p 或 720p以获得最佳性能,最高不超过 1080p;
单张图片大小不大于500KB(Base64编码前);
图片数据需要经过Base64编码;
以不超过每秒 2 张的频率向缓冲区添加图像;
发送 input_image_buffer.append 事件前,至少发送过一次 input_audio_buffer.append 事件。
type 事件类型,固定为 | |
image Base64 编码的图像数据。 |
该文章对您有帮助吗?