客户端事件

本文介绍 qwen3-livetranslate-flash-realtime API 的客户端事件。

相关文档:实时音视频翻译-通义千问

session.update

客户端建立 WebSocket 连接后,需首先发送该事件,用于更新会话的默认配置。

服务端收到 session.update 事件后,会校验参数。如果参数不合法,则返回错误;如果参数合法,则更新并返回完整的配置。

参数

类型

说明

type

string

事件类型,固定为session.update

session

object

会话配置。

session.modalities

array

模型输出模态设置,可选参数:

  • ["text"]

    仅输出文本。

  • ["text","audio"](默认值)

    输出文本与音频。

session.voice

string

生成音频的音色,可选值:支持的音色。默认值为"Cherry"。

session.input_audio_format

string

用户输入音频格式,当前仅支持设为“pcm16”。

session.output_audio_format

string

输出音频格式,当前仅支持设为“pcm16”。

session.translation

object

翻译配置。

session.translation.language

string

设置的翻译目标语种,可选值:支持的语种。默认值为"en"。

{
    "event_id": "event_ToPZqeobitzUJnt3QqtWg",
    "type": "session.update",
    "session": {
        "modalities": [
            "text",
            "audio"
        ],
        "voice": "Cherry",
        "input_audio_format": "pcm16",
        "output_audio_format": "pcm16",
        "translation": {
           "language": "en"
        }
    }
}

input_audio_buffer.append

向输入音频缓冲区追加音频字节。此缓冲区是临时存储空间,服务器使用此缓冲区检测并决定语音提交时机。

参数

类型

说明

type

string

事件类型,固定为input_audio_buffer.append

audio

string

Base64 编码的音频数据。

{
    "event_id": "event_B4o9RHSTWobB5OQdEHLTo",
    "type": "input_audio_buffer.append",
    "audio": "xxxx"
}

input_image_buffer.append

用于将图片数据添加到缓冲区。图片数据可以是本地的图片,或从视频流实时采集的图片数据。

目前对图片输入有以下限制:

  • 图片格式需要为JPGJPEG,建议传入的图片分辨率为480P720P, 最大1080P;

  • 单张图片大小不大于500KB;

  • 图片数据需要经过Base64编码;

  • 建议您以不超过 2张/秒的频率向服务端发送图片;

  • 该事件的发送时间不可早于第一个input_audio_buffer.append事件。

参数

类型

说明

type

string

事件类型,该事件下固定为input_image_buffer.append

image

string

经过 Base64 编码的图像数据。

{
    "event_id": "event_xxx",
    "type": "input_image_buffer.append",
    "image": "xxx"
}