相关文档:实时音视频翻译-通义千问。
session.update
客户端建立 WebSocket 连接后,需首先发送该事件,用于更新会话的默认配置。
服务端收到 session.update
事件后,会校验参数。如果参数不合法,则返回错误;如果参数合法,则更新并返回完整的配置。
参数 | 类型 | 说明 | type | string | 事件类型,固定为session.update 。 | session | object | 会话配置。 | session.modalities | array | 模型输出模态设置,可选参数: ["text"] 仅输出文本。 ["text","audio"](默认值) 输出文本与音频。
| session.voice | string | 生成音频的音色,可选值:支持的音色。默认值为"Cherry"。 | session.input_audio_format | string | 用户输入音频格式,当前仅支持设为“pcm16”。 | session.output_audio_format | string | 输出音频格式,当前仅支持设为“pcm16”。 | session.translation | object | 翻译配置。 | session.translation.language | string | 设置的翻译目标语种,可选值:支持的语种。默认值为"en"。 |
| {
"event_id": "event_ToPZqeobitzUJnt3QqtWg",
"type": "session.update",
"session": {
"modalities": [
"text",
"audio"
],
"voice": "Cherry",
"input_audio_format": "pcm16",
"output_audio_format": "pcm16",
"translation": {
"language": "en"
}
}
}
|
input_audio_buffer.append
向输入音频缓冲区追加音频字节。此缓冲区是临时存储空间,服务器使用此缓冲区检测并决定语音提交时机。
参数 | 类型 | 说明 | type | string | 事件类型,固定为input_audio_buffer.append 。 | audio | string | Base64 编码的音频数据。 |
| {
"event_id": "event_B4o9RHSTWobB5OQdEHLTo",
"type": "input_audio_buffer.append",
"audio": "xxxx"
}
|
input_image_buffer.append
用于将图片数据添加到缓冲区。图片数据可以是本地的图片,或从视频流实时采集的图片数据。
目前对图片输入有以下限制:
参数 | 类型 | 说明 | type | string | 事件类型,该事件下固定为input_image_buffer.append 。 | image | string | 经过 Base64 编码的图像数据。 |
| {
"event_id": "event_xxx",
"type": "input_image_buffer.append",
"image": "xxx"
}
|