header object (必选) 属性 task_id string (必选) 客户端生成的任务 ID(UUID 格式),用于关联后续事件。 | {
"header": {
"action": "run-task",
"task_id": "2bf83b9a-baeb-4fda-8d9a-xxxxxxxxxxxx",
"streaming": "duplex"
},
"payload": {
"task_group": "audio",
"task": "asr",
"function": "recognition",
"model": "fun-asr-realtime",
"parameters": {
"format": "pcm",
"sample_rate": 16000
},
"input": {}
}
}
|
payload object (必选) 属性 parameters object (必选) 语音识别参数。 属性 vocabulary_id string (可选) language_hints array[string] (可选) 待识别音频语种。无默认值,不设置时模型自动识别。 系统仅读取数组中的首个值,多余值将被忽略。 取值范围: semantic_punctuation_enabled boolean (可选) 是否启用语义断句。 默认值:false。 语义断句准确性更高,适合会议转写场景;VAD(Voice Activity Detection,语音活动检测)断句延迟较低,适合交互场景。 max_sentence_silence integer (可选) VAD 断句静音阈值(ms)。当一段语音后的静音时长超过该阈值时,系统会判定该句子已结束。 默认值:1300。 取值范围:[200, 6000]。 multi_threshold_mode_enabled boolean (可选) 是否启用多阈值模式。启用后可防止 VAD 断句切割过长。 默认值:false。 speech_noise_threshold float (可选) 语音与噪音的判定阈值,用于调整语音活动检测(VAD)的灵敏度。 取值范围:[-1.0, 1.0]。 取值说明: 此参数为高级配置参数,调整可能显著影响识别效果,建议: 调整前充分测试验证效果 根据实际音频环境小幅度调整(建议步长 0.1)
|