相关文档:实时音视频翻译-通义千问。
session.update
客户端建立 WebSocket 连接后,需首先发送该事件,用于更新会话的默认配置。
服务端收到 session.update 事件后,会校验参数。如果参数不合法,则返回错误;如果参数合法,则更新并返回完整的配置。
type string (必选) 事件类型,固定为session.update。 | {
"event_id": "event_ToPZqeobitzUJnt3QqtWg",
"type": "session.update",
"session": {
"modalities": [
"text",
"audio"
],
"voice": "Cherry",
"input_audio_format": "pcm16",
"output_audio_format": "pcm24",
"translation": {
"language": "en"
}
}
}
|
session object (可选) 会话配置。 属性 modalities array (可选) 模型输出模态设置,可选值: ["text"] 仅输出文本。 ["text","audio"](默认值) 输出文本与音频。
voice string (可选) 生成音频的音色,可选值:支持的音色。默认值为Cherry。 input_audio_format string (可选) 用户输入音频格式,当前仅支持设为pcm16。 output_audio_format string (可选) 输出音频格式,当前仅支持设为pcm24。 translation object (可选) 翻译配置。 属性 translation string (可选) 设置的翻译目标语种,可选值:支持的语种。默认值为en。 |
input_audio_buffer.append
向输入音频缓冲区追加音频字节。服务端使用此缓冲区检测并决定语音提交时机。
type string (必选) 事件类型,固定为input_audio_buffer.append。 | {
"event_id": "event_xxx",
"type": "input_audio_buffer.append",
"audio": "xxx"
}
|
audio string (必选) Base64 编码的音频数据。 |
input_image_buffer.append
用于将图像数据添加到图像缓冲区。图像可来自本地文件,或从视频流实时采集。
目前对图片输入有以下限制:
图像格式必须为 JPG 或 JPEG。建议分辨率为 480p 或 720p以获得最佳性能,最高不超过 1080p;
单张图片大小不大于500KB(Base64编码前);
图片数据需要经过Base64编码;
以不超过每秒 2 张的频率向缓冲区添加图像;
发送 input_image_buffer.append 事件前,至少发送过一次 input_audio_buffer.append 事件。
type string (必选) 事件类型,固定为input_image_buffer.append。 | {
"event_id": "event_xxx",
"type": "input_image_buffer.append",
"image": "xxx"
}
|
image string (必选) Base64 编码的图像数据。 |