session.update
客户端建立 WebSocket 连接后,首个发送的事件应为 session.update
。此事件用于更新会话的默认配置。
连接建立后,服务端会立即返回该会话的默认输入与输出配置。如需更新配置,请在连接建立后立即发送此事件。
服务端收到 session.update
事件后,会校验参数。如果参数不合法,则返回错误。如果参数合法,则更新会话配置,并返回完整的最新配置。
参数 | 类型 | 说明 | type | string | 事件类型,该事件下固定为session.update。 | session | object | session相关会话配置。 | session.modalities | array | 模型输出模态设置,支持设置["text"]或["text","audio"],不支持单独设置为["audio"]。 | session.voice | string | 模型生成音频时的音色,可选值:支持的音色。 | session.input_audio_format | string | 用户输入语音设置,当前仅支持设为pcm16 。 | session.output_audio_format | string | 模型输出音频的格式,当前仅支持设为pcm16 。 | session.translation | object | 翻译相关配置。 | session.translation.language | string | 设置的翻译目标语种,可选值:支持的语种。 |
| {
"event_id": "event_ToPZqeobitzUJnt3QqtWg",
"type": "session.update",
"session": {
"modalities": [
"text",
"audio"
],
"voice": "Cherry",
"input_audio_format": "pcm16",
"output_audio_format": "pcm16",
"translation": {
"language": "en"
}
}
}
|
input_audio_buffer.append
向输入音频缓冲区追加音频字节。此缓冲区是临时存储空间,服务器使用此缓冲区检测并决定语音提交时机。
参数 | 类型 | 说明 | type | string | 事件类型,该事件下固定为input_audio_buffer.append 。 | audio | string | Base64 编码的音频数据。 |
| {
"event_id": "event_B4o9RHSTWobB5OQdEHLTo",
"type": "input_audio_buffer.append",
"audio": "xxxx"
}
|
input_image_buffer.append
用于将图片数据添加到视频缓冲区。图片数据可以是本地的图片,或从视频流实时采集的图片数据。
目前对图片输入有以下限制:
视频缓冲区通过 input_audio_buffer.commit提交。
参数 | 类型 | 说明 | type | string | 事件类型,该事件下固定为input_image_buffer.append 。 | event_id | string | 本次事件的标识。 | image | string | 经过 Base64 编码的图像数据。 |
| {
"event_id": "event_xxx",
"type": "input_image_buffer.append",
"image": "xxx"
}
|