客户端事件

本文介绍 qwen3-livetranslate-flash-realtime API 的客户端事件。

相关文档:实时音视频翻译-通义千问

session.update

客户端建立 WebSocket 连接后,需首先发送该事件,用于更新会话的默认配置。

服务端收到 session.update 事件后,会校验参数。如果参数不合法,则返回错误;如果参数合法,则更新并返回完整的配置。

type string (必选)

事件类型,固定为session.update

{
    "event_id": "event_ToPZqeobitzUJnt3QqtWg",
    "type": "session.update",
    "session": {
        "modalities": [
            "text",
            "audio"
        ],
        "voice": "Cherry",
        "input_audio_format": "pcm16",
        "output_audio_format": "pcm24",
        "translation": {
           "language": "en"
        }
    }
}

session object (可选)

会话配置。

属性

modalities array (可选)

模型输出模态设置,可选值:

  • ["text"]

    仅输出文本。

  • ["text","audio"](默认值)

    输出文本与音频。

voice string (可选)

生成音频的音色,可选值:支持的音色。默认值为Cherry

input_audio_format string (可选)

用户输入音频格式,当前仅支持设为pcm16

output_audio_format string (可选)

输出音频格式,当前仅支持设为pcm24

translation object (可选)

翻译配置。

属性

translation string (可选)

设置的翻译目标语种,可选值:支持的语种。默认值为en

input_audio_buffer.append

向输入音频缓冲区追加音频字节。服务端使用此缓冲区检测并决定语音提交时机。

type string (必选)

事件类型,固定为input_audio_buffer.append

{
    "event_id": "event_xxx",
    "type": "input_audio_buffer.append",
    "audio": "xxx"
}

audio string (必选)

Base64 编码的音频数据。

input_image_buffer.append

用于将图像数据添加到图像缓冲区。图像可来自本地文件,或从视频流实时采集。

目前对图片输入有以下限制:

  • 图像格式必须为 JPG 或 JPEG。建议分辨率为 480p 或 720p以获得最佳性能,最高不超过 1080p;

  • 单张图片大小不大于500KB(Base64编码前);

  • 图片数据需要经过Base64编码;

  • 以不超过每秒 2 张的频率向缓冲区添加图像;

  • 发送 input_image_buffer.append 事件前,至少发送过一次 input_audio_buffer.append 事件。

type string (必选)

事件类型,固定为input_image_buffer.append

{
    "event_id": "event_xxx",
    "type": "input_image_buffer.append",
    "image": "xxx"
}

image string (必选)

Base64 编码的图像数据。