客户端事件

本文介绍 qwen3-livetranslate-flash-realtime API 的客户端事件。

session.update

客户端建立 WebSocket 连接后,首个发送的事件应为 session.update。此事件用于更新会话的默认配置。

连接建立后,服务端会立即返回该会话的默认输入与输出配置。如需更新配置,请在连接建立后立即发送此事件。

服务端收到 session.update 事件后,会校验参数。如果参数不合法,则返回错误。如果参数合法,则更新会话配置,并返回完整的最新配置。

参数

类型

说明

type

string

事件类型,该事件下固定为session.update。

session

object

session相关会话配置。

session.modalities

array

模型输出模态设置,支持设置["text"]或["text","audio"],不支持单独设置为["audio"]。

session.voice

string

模型生成音频时的音色,可选值:支持的音色

session.input_audio_format

string

用户输入语音设置,当前仅支持设为pcm16

session.output_audio_format

string

模型输出音频的格式,当前仅支持设为pcm16

session.translation

object

翻译相关配置。

session.translation.language

string

设置的翻译目标语种,可选值:支持的语种

{
    "event_id": "event_ToPZqeobitzUJnt3QqtWg",
    "type": "session.update",
    "session": {
        "modalities": [
            "text",
            "audio"
        ],
        "voice": "Cherry",
        "input_audio_format": "pcm16",
        "output_audio_format": "pcm16",
        "translation": {
           "language": "en"
        }
    }
}

input_audio_buffer.append

向输入音频缓冲区追加音频字节。此缓冲区是临时存储空间,服务器使用此缓冲区检测并决定语音提交时机。

参数

类型

说明

type

string

事件类型,该事件下固定为input_audio_buffer.append

audio

string

Base64 编码的音频数据。

{
    "event_id": "event_B4o9RHSTWobB5OQdEHLTo",
    "type": "input_audio_buffer.append",
    "audio": "xxxx"
}

input_image_buffer.append

用于将图片数据添加到视频缓冲区。图片数据可以是本地的图片,或从视频流实时采集的图片数据。

目前对图片输入有以下限制:

  • 图片格式需要为JPGJPEG,建议传入的图片分辨率为480P720P, 最大1080P;

  • 单张图片大小不大于500KB;

  • 图片数据需要经过Base64编码;

  • 建议您以 2张/秒 的频率向服务端发送图片;

  • 您需要先发送音频数据,再发送图片数据;

视频缓冲区通过 input_audio_buffer.commit提交。

参数

类型

说明

type

string

事件类型,该事件下固定为input_image_buffer.append

event_id

string

本次事件的标识。

image

string

经过 Base64 编码的图像数据。

{
    "event_id": "event_xxx",
    "type": "input_image_buffer.append",
    "image": "xxx"
}