AIAgentConfig

名称类型描述示例值
object

智能体模版参数。

Greetingstring

问候语,修改后下次入会生效。默认无。

你好
WakeUpQuerystring

用户在通话启动前的指令,智能体在通话启动后立即响应这一句话。

今天天气怎么样?
MaxIdleTimeinteger

和智能体无互动的最大等待时间,超时智能体下线。单位:秒。默认:600 秒。

600
UserOnlineTimeoutinteger

用户未入会,智能体超时关闭任务的时间。单位:秒。默认值:60 秒。

60
UserOfflineTimeoutinteger

用户退会后,智能体超时关闭任务的时间。单位:秒。默认值:5 秒。

5
EnablePushToTalkboolean

是否开启对讲机模式。默认值:false。

false
GracefulShutdownboolean

是否优雅下线。默认 false。

优雅下线:当智能体被停止的时候,播报完当前说的话再停止,最多播报 10 秒。

false
Volumelong

智能体说话的音量。

  • 若不填:默认使用阿里云推荐的自适应音量模式

  • 若填写:填写范围为 0~400,输出音量=工作流中的语音输出音量 * volume/100。示例:

  1. 若 volume=0,则代表输出音量为 0。

  2. 若 volume=100,音量为原声音量。

  3. 若 volume=200,音量等于原声音量的 2 倍。

100
WorkflowOverrideParamsstring

工作流覆盖参数,默认无。

{}
AvatarUrlstring

语音通话的智能体头像的头像链接。默认无。

http://example.com/a.jpg
AvatarUrlTypestring

智能体头像链接类型,默认无。

USER
EnableIntelligentSegmentboolean

智能断句开关,开启智能断句后,用户说话的发生断句会智能合并成一句。默认为 true。

true
AsrConfigobject

语音识别配置

AsrLanguageIdstring

asr 语种 Id。 可选:

  • zh_mandarin 中文

  • en 英文

  • zh_en 中英混

  • es 西班牙语

  • jp 日语

zh_mandarin
AsrMaxSilenceinteger

语音断句检测阈值,静音时长超过该阈值会被认为断句,参数范围 200ms~1200ms,默认值 400ms。

400
AsrHotWordsarray

Asr 热词列表。热词列表最大支持 128 个词。

string

热词字符串。字符长度: [1,10]个字符

检查
VadLevelinteger

打断阈值参数。取值范围:[0,11], 默认值:11。

  • 0 表示关闭 vad 功能。
  • 1-10 设置数字越高表示越难打断。
  • 11 与之前显著不同,前处理对话音损伤更低,抗干扰更强。
11
CustomParamsstring

asr 自研接入透传参数。

mode=fast&sample=16000&format=wav
VadDurationinteger

语音活动检测的最短持续时间阈值,用于控制打断的灵敏度。0 表示关闭此功能。有效范围:200 到 2000 毫秒。常用[200,500] 对应 1-4 个字。默认为空,不生效。

300
TtsConfigobject

语音合成配置。

VoiceIdstring

音色 ID,修改后下句话生效。不填写则使用智能体模版配置的音色 ID。仅针对预置 TTS 生效。输入长度不超过 64。可选值参考:智能语音效果示例

longcheng_v2
VoiceIdListarray

可选音色列表。

string

音色

zhixiaoxia
PronunciationRulesarray<object>

TTS 发音规则,数组长度不超过 20 个,规则按顺序执行。

object

TTS 发音规则。

Wordstring

需要替换的词,长度小于 10,必须是中文字符,不支持空格。

一一零
Pronunciationstring

目标的发音, 长度小于 10,必须是中文字符,不支持空格。

幺幺零
Typestring

具体发音规则类型。 可选:

  • replacement 直接将 Word 替换为 Pronunciation 的规则。
replacement
ModelIdstring

当前仅支持 minimax,可选值: speech-01-turbo / speech-02-turbo

speech-01-turbo
LanguageIdstring

当前仅支持 minimax,默认为空。增强对指定的小语种和方言的识别能力,设置后可以提升在指定小语种/方言场景下的语音表现。如果不明确小语种类型,则可以选择"auto",模型将自主判断小语种类型。支持以下取值:

支持语种
  • Chinese:中文
  • Chinese,Yue:粤语
  • English:英语
  • Arabic:阿拉伯语
  • Russian:俄语
  • Spanish:西班牙语
  • French:法语
  • Portuguese:葡萄牙语
  • German:德语
  • Turkish:土耳其语
  • Dutch:荷兰语
  • Ukrainian:乌克兰语
  • Vietnamese:越南语
  • Indonesian:印度尼西亚语
  • Japanese:日语
  • Italian:意大利语
  • Korean:韩语
  • Thai:泰语
  • Polish:波兰语
  • Romanian:罗马尼亚语
  • Greek:希腊语
  • Czech:捷克语
  • Finnish:芬兰语
  • Hindi:印地语
  • auto:自动检测
Chinese
Emotionstring

当前仅支持 minimax,minimax 当前支持 7 种情绪:

  • happy:高兴
  • sad:悲伤
  • angry:愤怒
  • fearful:害怕
  • disgusted:厌恶
  • surprised:惊讶
  • calm:中性
happy
SpeechRatedouble

支持全平台。 cosyvoice 默认 1.0,取值范围:0.5-2.0。 minimax 默认 1.0, 取值范围: 0.5-2.0。

1.0
LlmConfigobject

大语言模型配置

LlmHistoryarray<object>

llm/mllm 历史对话上下文

object

单个对话

Rolestring

表示对话参与者的角色。可选值包括:

  • user: 用户

  • assistant: 助手

  • system: 系统

  • function: 函数

  • plugin: 插件

  • tool: 工具

user
Contentstring

存储实际的对话内容文本,记录了该角色在对话中的具体表达或回应。

你好
LlmHistoryLimitinteger

llm/mllm 历史对话上下文最大保留轮次,默认 10 次。

10
LlmSystemPromptstring

启动通话后 llm 的系统提示词。

你是一位友好且乐于助人的助手,专注于为用户提供准确的信息和建议。
BailianAppParamsstring

阿里云百炼应用中心参数,类型为 JSON 字符串。参数格式参考: 阿里云百炼应用中心参数

"{\"biz_params\":{\"user_defined_params\":{\"your_plugin_id\":{\"article_index\":2}}},\"memory_id\":\"your_memory_id\",\"image_list\":[\"https://your_image_url\"],\"rag_options\":{\"pipeline_ids\":[\"your_id\"],\"file_ids\":[\"文档ID1\",\"文档ID2\"],\"metadata_filter\":{\"name\":\"张三\"},\"structured_filter\":{\"key1\":\"value1\",\"key2\":\"value2\"},\"tags\":[\"标签1\",\"标签2\"]}}"
OpenAIExtraQuerystring

额外的 OpenAI 协议 LLM 的查询参数, 参数必须使用 key=value 格式,多个参数用 & 连接,所有值必须为字符串类型。

api-version=2024-02-01&api-key=sk-xxx
LlmCompleteReplyboolean

开启后,llm 回复完整结果之后,智能体会向客户端发送完整 llm 结果。此开关不影响字幕的流式生成。

true
FunctionMaparray<object>

功能映射列表,用于将智能体能力与 LLM 函数对应。当前只支持和用户自定义 openai 协议 llm 的函数调用。

object

单个对应规则。

Functionstring

阿里智能体系统提供的内置功能名称。当前只支持 hangup(挂断)。

hangup
MatchFunctionstring

要与该功能对应的 LLM 函数名称,由客户自定义,用于在 LLM 中调用对应功能。用户自定义 llm 协议参考: LLM 标准接口

hangup
OutputMinLengthinteger

文本输出最小长度(字符数),小于该长度的文本会被缓存等待拼接,范围[0, 100],0 或空表示不限制,默认空。

5
OutputMaxDelayinteger

文本输出最大延迟时间(毫秒),超过该时间强制输出已缓存文本,。范围[1000,10000],0 或空表示不限制,默认空。

2000
HistorySyncWithTTSboolean

大模型消息历史,是否和 tts 播放内容保持一致。默认 false。开启后,保存的大模型消息和 tts 播放内容保持一致。

false
AvatarConfigobject

数字人配置,只有当工作流中包含数字人节点才会生效。

AvatarIdstring

数字人的模型 id。

5257
InterruptConfigobject

语音打断策略配置。

EnableVoiceInterruptboolean

是否支持语音打断,默认 true。

true
InterruptWordsarray

触发对话中断的特定词汇或短语列表。

string

触发对话中断的特定词汇或短语。

打断一下
VoiceprintConfigobject

声纹配置

UseVoiceprintboolean

是否使用声纹识别的开关。默认值:false。开启声纹时需要传入合法的声纹 Id

false
VoiceprintIdstring

声纹识别的唯一身份 ID。默认值:不填。传入的声纹 id 必须已经通过声纹注册接口注册,接口文档参考:注册人声声纹

zhixiaoxia
TurnDetectionConfigobject

对话轮次检测配置

TurnEndWordsarray

用于判断用户轮次结束的关键词列表。

string

用于判断用户轮次结束的关键词。

我说完了
Modestring

轮次检测的模式。

  • Normal(默认值):普通模式,不使用 AI 判断语义;

  • Semantic:用 AI 根据上下文语义,判断是否说完话了。

Semantic
SemanticWaitDurationinteger

AI 模式下的停顿判定时间,单位:毫秒,默认值-1。

  • -1: AI 自动判断合适的等待时间

  • 0-10000: 自定义等待时间,建议设置在 0-1500ms

说明 普通模式下此项无效
-1
ExperimentalConfigstring

实验功能参数,有需求请联系答疑。

""
VcrConfigobject

视频识别内容功能配置,支持向客户端回调算法在视频中识别的内容。

StillFrameMotionobject

画面静止帧检测配置。

Enabledboolean

是否开启静帧检查,默认 false。

false
CallbackDelayinteger

静止帧检查延迟通知延时,设置后会在静止帧持续一段时间后,再触发通知。单位毫秒。默认为空,通话会使用控制台配置。取值范围[200,5000]。

3000
InvalidFrameMotionobject

画面无效帧检查参数配置。

Enabledboolean

是否开启无效帧检查。

false
CallbackDelayinteger

画面无效帧检查延迟通知延时,设置后会在静止帧持续一段时间后,再触发通知。单位毫秒。默认为空,通话会使用控制台配置。取值范围[200,5000]。

3000
PeopleCountobject

人数统计功能配置。

Enabledboolean

开关,默认 false。

false
Equipmentobject

设备识别配置。

Enabledboolean

是否开启禁用设备检查,默认 false

false
HeadMotionobject

头部动作识别配置。

Enabledboolean

是否开启头部动作识别检查。默认 false

false
LookAwayobject

视线偏移识别配置。

Enabledboolean

是否开启视线偏移配置。默认 false

true
AmbientSoundConfigobject

通话环境音配置。

ResourceIdstring

通话环境音 ID,可以在控制台上智能体配置的高级配置中获取。

f67901c595834************
Volumeinteger

通话背景音的音量,可选值:[0, 100],0 表示关闭。

50
AutoSpeechConfigobject

智能体自动说话配置模块,包括 LLM 等待提示和用户长时间静默问询。

UserIdleobject

用户长时间静默时的问询播报配置。

WaitTimeinteger

静默时长阈值,单位毫秒,必填。超过此时长触发问询。范围 5000–600000ms。

5000
MaxRepeatsinteger

最大问询次数,范围 0–10,必填。超过后不再触发,直接关闭通话。

5
Messagesarray<object>

问询提示语集合,最大 10 条,每条长度 ≤ 100 字符,概率总和为 100%。

object

问询词结构

Textstring

问询提示语文本,最长 100 字符。

您还在吗?
Probabilitydouble

提示语的选择概率,范围 0–1,对应 0%-100%。

0.5
LlmPendingobject

LLM 响应延迟时的播报配置。

WaitTimeinteger

等待大模型回复时长阈值。超过此时长,触发播报提示。必填,单位毫秒,范围 500–10000ms。请用户根据大模型的实际使用。

3000
Messagesarray<object>

问询提示语集合,最大 10 条,每条长度 ≤ 100 字符,概率总和为 100%。

object

问询词结构

Textstring

问询提示语文本,最长 100 字符。

稍等一下
Probabilitydouble

提示语的选择概率,范围 0–1,对应 0%-100%。

0.5