AIAgentConfig

名称类型描述示例值
object

智能体模版参数。

Greetingstring

问候语,修改后下次入会生效。默认无。

你好
WakeUpQuerystring

用户在通话启动前的指令,智能体在通话启动后立即响应这一句话。

今天天气怎么样?
MaxIdleTimeinteger

和智能体无互动的最大等待时间,超时智能体下线。单位:秒。默认:600 秒。

600
UserOnlineTimeoutinteger

用户未入会,智能体超时关闭任务的时间。单位:秒。默认值:60 秒。

60
UserOfflineTimeoutinteger

用户退会后,智能体超时关闭任务的时间。单位:秒。默认值:5 秒。

5
EnablePushToTalkboolean

是否开启对讲机模式。默认值:false。

false
GracefulShutdownboolean

是否优雅下线,默认 false。

优雅下线:当智能体被停止的时候,播报完当前说的话再停止,最多播报 10 秒。

false
Volumelong

智能体说话的音量。

  • 若不填:默认使用阿里云推荐的自适应音量模式

  • 若填写:填写范围为 0~400,输出音量=工作流中的语音输出音量 * volume/100。示例:

  1. 若 volume=0,则代表输出音量为 0。

  2. 若 volume=100,音量为原声音量。

  3. 若 volume=200,音量等于原声音量的 2 倍。

100
WorkflowOverrideParamsstring

工作流覆盖参数,默认无。

{}
AvatarUrlstring

语音通话的智能体头像的头像链接。默认无。

http://example.com/a.jpg
AvatarUrlTypestring

智能体头像链接类型,默认无。

USER
EnableIntelligentSegmentboolean

智能断句开关,开启智能断句后,用户说话的发生断句会智能合并成一句。默认为 true。

true
AsrConfigobject

语音识别配置

AsrMaxSilenceinteger

语音断句检测阈值,静音时长超过该阈值会被认为断句,参数范围 200ms~1200ms,默认值 400ms。

400
AsrLanguageIdstring

asr 语种 Id。 可选:

  • zh_mandarin 中文

  • en 英文

  • zh_en 中英混

  • es 西班牙语

  • jp 日语

zh_mandarin
CustomParamsstring

asr 自研接入透传参数。

mode=fast&sample=16000&format=wav
VadDurationinteger

语音活动检测的最短持续时间阈值,用于控制打断的灵敏度。0 表示关闭此功能。有效范围:200 到 2000 毫秒。常用[200,500] 对应 1-4 个字。默认为空,不生效。

300
AsrHotWordsarray

Asr 热词列表。热词列表最大支持 128 个词。

string

热词字符串。字符长度: [1,10]个字符

检查
VadLevelinteger

打断阈值参数,越高表示越难打断。取值范围:[0,10], 默认值:1。0 表示关闭 vad 功能。

1
TtsConfigobject

语音合成配置。

PronunciationRulesarray<object>

TTS 发音规则,数组长度不超过 20 个,规则按顺序执行。

object

TTS 发音规则。

Typestring

具体发音规则类型。 可选:

  • replacement 直接将 Word 替换为 Pronunciation 的规则。
replacement
Wordstring

需要替换的词,长度小于 10,必须是中文字符,不支持空格。

一一零
Pronunciationstring

目标的发音, 长度小于 10,必须是中文字符,不支持空格。

幺幺零
VoiceIdListarray

可选音色列表。

string

音色

zhixiaoxia
VoiceIdstring

音色 ID,修改后下句话生效。不填写则使用智能体模版配置的音色 ID。仅针对预置 TTS 生效。输入长度不超过 64。可选值参考:智能语音效果示例

longcheng_v2
Emotionstring

当前仅支持 minimax,minimax 当前支持 7 种情绪:

  • happy:高兴
  • sad:悲伤
  • angry:愤怒
  • fearful:害怕
  • disgusted:厌恶
  • surprised:惊讶
  • calm:中性
happy
ModelIdstring

当前仅支持 minimax,可选值: speech-01-turbo / speech-02-turbo

speech-01-turbo
LanguageIdstring

当前仅支持 minimax,默认为空。增强对指定的小语种和方言的识别能力,设置后可以提升在指定小语种/方言场景下的语音表现。如果不明确小语种类型,则可以选择"auto",模型将自主判断小语种类型。支持以下取值:

支持语种
  • Chinese:中文
  • Chinese,Yue:粤语
  • English:英语
  • Arabic:阿拉伯语
  • Russian:俄语
  • Spanish:西班牙语
  • French:法语
  • Portuguese:葡萄牙语
  • German:德语
  • Turkish:土耳其语
  • Dutch:荷兰语
  • Ukrainian:乌克兰语
  • Vietnamese:越南语
  • Indonesian:印度尼西亚语
  • Japanese:日语
  • Italian:意大利语
  • Korean:韩语
  • Thai:泰语
  • Polish:波兰语
  • Romanian:罗马尼亚语
  • Greek:希腊语
  • Czech:捷克语
  • Finnish:芬兰语
  • Hindi:印地语
  • auto:自动检测
Chinese
SpeechRatedouble

支持全平台。 cosyvoice 默认 1.0,取值范围:0.5-2.0。 minimax 默认 1.0, 取值范围: 0.5-2.0。

1.0
LlmConfigobject

大语言模型配置

FunctionMaparray<object>

功能映射列表,用于将智能体能力与 LLM 函数对应。当前只支持和用户自定义 openai 协议 llm 的函数调用。

object

单个对应规则。

Functionstring

阿里智能体系统提供的内置功能名称。当前只支持 hangup(挂断)。

hangup
MatchFunctionstring

要与该功能对应的 LLM 函数名称,由客户自定义,用于在 LLM 中调用对应功能。用户自定义 llm 协议参考: LLM 标准接口

hangup
LlmHistoryLimitinteger

llm/mllm 历史对话上下文最大保留轮次,默认 10 次。

10
LlmCompleteReplyboolean

开启后,llm 生成结果之后,会向客户端发送完整 llm 结果。

true
LlmHistoryarray<object>

llm/mllm 历史对话上下文

object

单个对话

Rolestring

表示对话参与者的角色。可选值包括:

  • user: 用户

  • assistant: 助手

  • system: 系统

  • function: 函数

  • plugin: 插件

  • tool: 工具

user
Contentstring

存储实际的对话内容文本,记录了该角色在对话中的具体表达或回应。

你好
LlmSystemPromptstring

启动通话后 llm 的系统提示词。

你是一位友好且乐于助人的助手,专注于为用户提供准确的信息和建议。
OpenAIExtraQuerystring

额外的 OpenAI 协议 LLM 的查询参数, 参数必须使用 key=value 格式,多个参数用 & 连接,所有值必须为字符串类型。

api-version=2024-02-01&api-key=sk-xxx
OutputMaxDelayinteger

文本输出最大延迟时间(毫秒),超过该时间强制输出已缓存文本,。范围[1000,10000],0 或空表示不限制,默认空。

2000
BailianAppParamsstring

阿里云百炼应用中心参数,类型为 JSON 字符串。参数格式参考: 阿里云百炼应用中心参数

"{\"biz_params\":{\"user_defined_params\":{\"your_plugin_id\":{\"article_index\":2}}},\"memory_id\":\"your_memory_id\",\"image_list\":[\"https://your_image_url\"],\"rag_options\":{\"pipeline_ids\":[\"your_id\"],\"file_ids\":[\"文档ID1\",\"文档ID2\"],\"metadata_filter\":{\"name\":\"张三\"},\"structured_filter\":{\"key1\":\"value1\",\"key2\":\"value2\"},\"tags\":[\"标签1\",\"标签2\"]}}"
OutputMinLengthinteger

文本输出最小长度(字符数),小于该长度的文本会被缓存等待拼接,范围[0, 100],0 或空表示不限制,默认空。

5
AvatarConfigobject

数字人配置,只有当工作流中包含数字人节点才会生效。

AvatarIdstring

数字人的模型 id。

5257
InterruptConfigobject

语音打断策略配置。

InterruptWordsarray

触发对话中断的特定词汇或短语列表。

string

触发对话中断的特定词汇或短语。

打断一下
EnableVoiceInterruptboolean

是否支持语音打断,默认 true。

true
VoiceprintConfigobject

声纹配置

VoiceprintIdstring

声纹识别的唯一身份 ID。默认值:不填。传入的声纹 id 必须已经通过声纹注册接口注册,接口文档参考:注册人声声纹

zhixiaoxia
UseVoiceprintboolean

是否使用声纹识别的开关。默认值:false。开启声纹时需要传入合法的声纹 Id

false
TurnDetectionConfigobject

对话轮次检测配置

SemanticWaitDurationinteger

AI 模式下的停顿判定时间,单位:毫秒,默认值-1。

  • -1: AI 自动判断合适的等待时间

  • 0-10000: 自定义等待时间,建议设置在 0-1500ms

说明 普通模式下此项无效
-1
TurnEndWordsarray

用于判断用户轮次结束的关键词列表。

string

用于判断用户轮次结束的关键词。

我说完了
Modestring

轮次检测的模式。

  • Normal(默认值):普通模式,不使用 AI 判断语义;

  • Semantic:用 AI 根据上下文语义,判断是否说完话了。

Semantic
ExperimentalConfigstring

实验功能参数,有需求请联系答疑。

""
VcrConfigobject

视频识别内容功能配置,支持向客户端回调算法在视频中识别的内容。

PeopleCountobject

人数统计功能配置。

Enabledboolean

开关,默认 false。

false
StillFrameMotionobject

画面静止帧检测配置。

Enabledboolean

是否开启静帧检查,默认 false。

false
CallbackDelayinteger

静止帧检查延迟通知延时,设置后会在静止帧持续一段时间后,再触发通知。单位毫秒。默认为空,通话会使用控制台配置。取值范围[200,5000]。

3000
Equipmentobject

设备识别配置。

Enabledboolean

是否开启禁用设备检查,默认 false

false
HeadMotionobject

头部动作识别配置。

Enabledboolean

是否开启头部动作识别检查。默认 false

false
LookAwayobject

视线偏移识别配置。

Enabledboolean

是否开启视线偏移配置。默认 false

true
InvalidFrameMotionobject

画面无效帧检查参数配置。

Enabledboolean

是否开启无效帧检查。

false
CallbackDelayinteger

画面无效帧检查延迟通知延时,设置后会在静止帧持续一段时间后,再触发通知。单位毫秒。默认为空,通话会使用控制台配置。取值范围[200,5000]。

3000
AmbientSoundConfigobject

通话环境音配置。

ResourceIdstring

通话环境音 ID,可以在控制台上智能体配置的高级配置中获取。

f67901c595834************
Volumeinteger

通话背景音的音量,可选值:[0, 100],0 表示关闭。

50