Qwen-Omni-Realtime API的客户端事件参考。
另请参见: 实时(Qwen-Omni-Realtime) 。
session.update
建立 WebSocket 连接后,发送此事件更新会话的默认配置。服务端收到 session.update 事件后校验参数,若参数不合法则返回错误,若参数合法则应用更改并返回完整配置。
|
type 事件类型,固定为 |
|
|
session 会话配置。 |
|
|
temperature 采样温度,控制输出内容的多样性。值越高,输出越多样;值越低,输出越确定。 取值范围:[0, 2)。 由于 temperature 和 top_p 均可控制多样性,建议只设置其中一个。 默认值:
|
|
|
top_p 核采样概率阈值,控制输出内容的多样性。值越高,输出越多样;值越低,输出越确定。 取值范围:(0, 1.0]。 由于 temperature 和 top_p 均可控制多样性,建议只设置其中一个。 默认值:
|
|
|
top_k 采样候选集大小。例如设为 50 时,每步生成仅从得分最高的 50 个 Token 中采样。值越大,随机性越高;值越小,确定性越高。设为 取值需大于或等于 0。 默认值:
|
|
|
max_tokens 本次请求返回的最大 Token 数。
默认值和最大值均为模型的最大输出长度,各模型的最大输出长度参见模型列表。 适用于需要限制输出长度的场景,如生成摘要或关键词、控制成本、缩短响应时间等。
|
|
|
repetition_penalty 控制生成内容中连续序列的重复度。值越高,重复惩罚越强;1.0 表示不做惩罚。取值需大于 0,无严格上限。 默认值:
|
|
|
presence_penalty 控制生成内容的重复度。 取值范围:[-2.0, 2.0]。正数降低重复度,负数增加重复度。 默认值:
适用场景: 较高值适合创意写作、头脑风暴等需要多样性和创造性的场景。 较低值适合技术文档等需要一致性和专业术语的场景。
|
|
|
seed 提高生成过程的确定性,常用于在相同参数下复现相同结果。 每次调用时传入相同的 seed 值并保持其他参数不变,模型将尽可能返回相同的结果。 取值范围:0 到 231−1,默认值为 -1。
|
response.create
response.create 事件用于指示服务端生成模型响应。VAD 模式下,服务端会自动生成响应,无需发送此事件。工具调用场景中,客户端通过 conversation.item.create 回传工具结果后,需发送此事件触发模型生成最终响应。
服务端以 response.created 事件开始响应,随后发送一个或多个项和内容事件(如 conversation.item.created 和 response.content_part.added),最后以 response.done 事件表示响应完成。
|
type 事件类型,固定为 |
|
response.cancel
客户端发送此事件取消正在进行的响应。若当前无响应可取消,服务端将返回错误事件。
|
type 事件类型,固定为 |
|
input_audio_buffer.append
将音频字节追加到输入音频缓冲区。
|
type 事件类型,固定为 |
|
|
audio Base64 编码的音频数据。 |
input_audio_buffer.commit
提交输入音频缓冲区,在对话中创建新的用户消息项。若音频缓冲区为空,服务端将返回错误事件。
提交音频缓冲区不会触发模型响应,服务端将以 input_audio_buffer.committed 事件响应。
若客户端已发送过 input_image_buffer.append 事件,input_audio_buffer.commit 事件将同时提交图像缓冲区。
|
type 事件类型,固定为 |
|
input_audio_buffer.clear
清除音频缓冲区中的字节。服务端以 input_audio_buffer.cleared 事件响应。
|
type 事件类型,固定为 |
|
input_image_buffer.append
将图像数据添加到图像缓冲区。图像可来自本地文件,也可从视频流实时采集。
图片输入限制如下:
-
图像格式必须为 JPG 或 JPEG。建议分辨率为 480p 或 720p 以获得最佳性能,最高不超过 1080p。
-
单张图片经Base64编码后不得超过256KB,建议编码前原始图片大小不超过190KB。
-
图片数据需经过 Base64 编码。
-
建议以 1 张/秒的频率向服务端发送图像。
-
发送 input_image_buffer.append 事件前,至少已发送过一次 input_audio_buffer.append 事件。
图像缓冲区与音频缓冲区通过 input_audio_buffer.commit 事件一起提交。
|
type 事件类型,固定为 |
|
|
image Base64 编码的图像数据。 |
conversation.item.create
客户端发送此事件,将工具函数的执行结果回传给服务端。模型触发工具调用后,客户端在本地执行工具函数,通过此事件将结果发回,再发送 response.create 触发模型生成最终响应。
当前仅支持 function_call_output 类型的 item。
|
type 事件类型,固定为 |
|
|
item 要创建的对话项,不能为空。 |