AIAgentConfig智能体配置参数参考-智能媒体服务-阿里云-智能媒体服务(IMS)-阿里云帮助中心

object

智能体模版参数。

Greeting

string

问候语，修改后下次入会生效。默认无。

你好

WakeUpQuery

string

用户在通话启动前的指令，智能体在通话启动后立即响应这一句话。

今天天气怎么样？

MaxIdleTime

integer

和智能体无互动的最大等待时间，超时智能体下线。单位：秒。默认：600 秒。

600

UserOnlineTimeout

integer

用户未入会，智能体超时关闭任务的时间。单位：秒。默认值：60 秒。

60

UserOfflineTimeout

integer

用户退会后，智能体超时关闭任务的时间。单位：秒。默认值：5 秒。

5

EnablePushToTalk

boolean

是否开启对讲机模式。默认值：false。

false

GracefulShutdown

boolean

是否优雅下线。默认 false。

优雅下线：当智能体被停止的时候，播报完当前说的话再停止，最多播报 10 秒。

false

Volume

integer

智能体说话的音量。

若不填：默认使用阿里云推荐的自适应音量模式
若填写：填写范围为 0~400，输出音量=工作流中的语音输出音量 * volume/100。示例：

若 volume=0，则代表输出音量为 0。
若 volume=100，音量为原声音量。
若 volume=200，音量等于原声音量的 2 倍。

100

WorkflowOverrideParams

string

工作流覆盖参数，默认无。

{}

AvatarUrl

string

语音通话的智能体头像的头像链接。默认无。

http://example.com/a.jpg

AvatarUrlType

string

智能体头像链接类型，默认无。

USER

EnableIntelligentSegment

boolean

智能断句开关，开启智能断句后，用户说话的发生断句会智能合并成一句。默认为 true。

true

AsrConfig

object

语音识别配置

AsrLanguageId

string

asr 语种 Id。可选：

zh_mandarin 中文
en 英文
zh_en 中英混
es 西班牙语
jp 日语

zh_mandarin

AsrMaxSilence

integer

语音断句检测阈值，静音时长超过该阈值会被认为断句，参数范围 200ms～1200ms，默认值 400ms。

400

AsrHotWords

array

Asr 热词列表。热词列表最大支持 128 个词。

string

热词字符串。字符长度: [1,10]个字符

检查

VadLevel

integer

打断阈值参数。取值范围：[0,11], 默认值：11。

0 表示关闭 vad 功能。
1-10 设置数字越高表示越难打断。
11 与之前显著不同，前处理对话音损伤更低，抗干扰更强。

11

CustomParams

string

asr 自研接入透传参数。

mode=fast&sample=16000&format=wav

VadDuration

integer

语音活动检测的最短持续时间阈值，用于控制打断的灵敏度。0 表示关闭此功能。有效范围：200 到 2000 毫秒。常用[200,500] 对应 1-4 个字。默认为空，不生效。

300

TtsConfig

object

语音合成配置。

VoiceId

string

音色 ID，修改后下句话生效。不填写则使用智能体模版配置的音色 ID。仅针对预置 TTS 生效。输入长度不超过 64。可选值参考：智能语音效果示例。

longcheng_v2

VoiceIdList

array

可选音色列表。

string

音色

zhixiaoxia

PronunciationRules

array

TTS 发音规则，数组长度不超过 20 个，规则按顺序执行。

object

TTS 发音规则。

Word

string

需要替换的词，长度小于 10，必须是中文字符，不支持空格。

一一零

Pronunciation

string

目标的发音，长度小于 10，必须是中文字符，不支持空格。

幺幺零

Type

string

具体发音规则类型。可选：

replacement 直接将 Word 替换为 Pronunciation 的规则。

replacement

ModelId

string

当前仅支持 minimax，可选值： speech-01-turbo / speech-02-turbo

speech-01-turbo

LanguageId

string

当前仅支持 minimax，默认为空。增强对指定的小语种和方言的识别能力，设置后可以提升在指定小语种/方言场景下的语音表现。如果不明确小语种类型，则可以选择"auto"，模型将自主判断小语种类型。支持以下取值：

支持语种

Chinese：中文
Chinese,Yue：粤语
English：英语
Arabic：阿拉伯语
Russian：俄语
Spanish：西班牙语
French：法语
Portuguese：葡萄牙语
German：德语
Turkish：土耳其语
Dutch：荷兰语
Ukrainian：乌克兰语
Vietnamese：越南语
Indonesian：印度尼西亚语
Japanese：日语
Italian：意大利语
Korean：韩语
Thai：泰语
Polish：波兰语
Romanian：罗马尼亚语
Greek：希腊语
Czech：捷克语
Finnish：芬兰语
Hindi：印地语
auto：自动检测

Chinese

Emotion

string

当前仅支持 minimax，minimax 当前支持 7 种情绪：

happy：高兴
sad：悲伤
angry：愤怒
fearful：害怕
disgusted：厌恶
surprised：惊讶
calm：中性

happy

SpeechRate

number

支持全平台。 cosyvoice 默认 1.0，取值范围：0.5-2.0。 minimax 默认 1.0，取值范围: 0.5-2.0。

1.0

LlmConfig

object

大语言模型配置

LlmHistory

array

llm/mllm 历史对话上下文

object

单个对话

Role

string

表示对话参与者的角色。可选值包括：

user: 用户
assistant: 助手
system: 系统
function: 函数
plugin: 插件
tool: 工具

user

Content

string

存储实际的对话内容文本，记录了该角色在对话中的具体表达或回应。

你好

LlmHistoryLimit

integer

llm/mllm 历史对话上下文最大保留轮次，默认 10 次。

10

LlmSystemPrompt

string

启动通话后 llm 的系统提示词。

你是一位友好且乐于助人的助手，专注于为用户提供准确的信息和建议。

BailianAppParams

string

阿里云百炼应用中心参数，类型为 JSON 字符串。参数格式参考：阿里云百炼应用中心参数

"{\"biz_params\":{\"user_defined_params\":{\"your_plugin_id\":{\"article_index\":2}}},\"memory_id\":\"your_memory_id\",\"image_list\":[\"https://your_image_url\"],\"rag_options\":{\"pipeline_ids\":[\"your_id\"],\"file_ids\":[\"文档ID1\",\"文档ID2\"],\"metadata_filter\":{\"name\":\"张三\"},\"structured_filter\":{\"key1\":\"value1\",\"key2\":\"value2\"},\"tags\":[\"标签1\",\"标签2\"]}}"

OpenAIExtraQuery

string

额外的 OpenAI 协议 LLM 的查询参数, 参数必须使用 key=value 格式,多个参数用 & 连接,所有值必须为字符串类型。

api-version=2024-02-01&api-key=sk-xxx

LlmCompleteReply

boolean

开启后，llm 回复完整结果之后，智能体会向客户端发送完整 llm 结果。此开关不影响字幕的流式生成。

true

FunctionMap

array

功能映射列表，用于将智能体能力与 LLM 函数对应。当前只支持和用户自定义 openai 协议 llm 的函数调用。

object

单个对应规则。

Function

string

阿里智能体系统提供的内置功能名称。当前只支持 hangup(挂断)。

hangup

MatchFunction

string

要与该功能对应的 LLM 函数名称，由客户自定义，用于在 LLM 中调用对应功能。用户自定义 llm 协议参考： LLM 标准接口

hangup

OutputMinLength

integer

文本输出最小长度（字符数），小于该长度的文本会被缓存等待拼接，范围[0, 100]，0 或空表示不限制，默认空。

5

OutputMaxDelay

integer

文本输出最大延迟时间（毫秒），超过该时间强制输出已缓存文本，。范围[1000,10000]，0 或空表示不限制，默认空。

2000

HistorySyncWithTTS

boolean

大模型消息历史，是否和 tts 播放内容保持一致。默认 false。开启后，保存的大模型消息和 tts 播放内容保持一致。

说明

大模型消息历史中当用户打断 Agent 时，下次发送给大模型的 message 会在打断位置插入 <ims_agent_interrupted> 标签。比如：

[
  {"role": "user", "content": "给我讲一个故事。"},
  {"role": "assistant", "content": "好的，我给你讲一个三国演义的故事吧，你<ims_agent_interrupted>想听吗？"},
  {"role": "user", "content": "换一个吧。"}
]

false

AvatarConfig

object

数字人配置，只有当工作流中包含数字人节点才会生效。

AvatarId

string

数字人的模型 id。

5257

InterruptConfig

object

语音打断策略配置。

EnableVoiceInterrupt

boolean

是否支持语音打断，默认 true。

true

InterruptWords

array

触发对话中断的特定词汇或短语列表。

string

触发对话中断的特定词汇或短语。

打断一下

NoInterruptMode

string

模式下的 ASR 处理策略

cache: 缓存 ASR 文本，当前轮次结束后，被缓存的 asr 文本会在下一个轮次一起被处理。
discard: 直接丢弃 ASR 文本。

默认处理是缓存 ASR 文本

cache

KeepInterruptWordsForLLM

boolean

是否保留打断词送 LLM，默认丢弃。

说明

举例：打断词是“稍等”。"稍等今天天气怎么样"丢弃打断词送 LLM 后，变为"今天天气怎么样"。

true

VoiceprintConfig

object

声纹配置

UseVoiceprint

boolean

是否使用声纹识别的开关。默认值：false。开启声纹时需要传入合法的声纹 Id

false

VoiceprintId

string

声纹识别的唯一身份 ID。默认值：不填。传入的声纹 id 必须已经通过声纹注册接口注册，接口文档参考：注册人声声纹

zhixiaoxia

RegistrationMode

string

声纹注册模式。默认值：Explicit

取值	说明
Explicit	显式注册模式，用户需提前通过声纹注册接口上传音频完成注册。
Implicit	无感注册模式，在对话过程中自动采集用户语音并生成声纹特征。

Explicit

TurnDetectionConfig

object

对话轮次检测配置

TurnEndWords

array

用于判断用户轮次结束的关键词列表。

string

用于判断用户轮次结束的关键词。

我说完了

Mode

string

轮次检测的模式。

Normal（默认值）：普通模式，不使用 AI 判断语义；
Semantic：用 AI 根据上下文语义，判断是否说完话了。

Semantic

SemanticWaitDuration

integer

AI 模式下的停顿判定时间，单位:毫秒，默认值-1。

-1: AI 自动判断合适的等待时间
0-10000: 自定义等待时间，建议设置在 0-1500ms

说明

普通模式下此项无效

-1

Eagerness

string

仅在 Semantic 模式下生效。控制 AI 检测到停顿后，启动回应的快慢程度：

"Low"：耐心等待，最长等待时间 6 秒，减少被打断风险。
"Medium"：平衡等待（最长等待时间 4 秒），适用大多数场景。
"High"：快速响应（最长等待时间 2 秒），提升速度但可能增加误切风险。

字段默认空。

High

ExperimentalConfig

string

实验功能参数，有需求请联系答疑。

""

VcrConfig

object

视频识别内容功能配置，支持向客户端回调算法在视频中识别的内容。

StillFrameMotion

object

画面静止帧检测配置。

Enabled

boolean

是否开启静帧检查，默认 false。

false

CallbackDelay

integer

静止帧检查延迟通知延时，设置后会在静止帧持续一段时间后，再触发通知。单位毫秒。默认为空，通话会使用控制台配置。取值范围[200,5000]。

3000

InvalidFrameMotion

object

画面无效帧检查参数配置。

Enabled

boolean

是否开启无效帧检查。

false

CallbackDelay

integer

画面无效帧检查延迟通知延时，设置后会在静止帧持续一段时间后，再触发通知。单位毫秒。默认为空，通话会使用控制台配置。取值范围[200,5000]。

3000

PeopleCount

object

人数统计功能配置。

Enabled

boolean

开关，默认 false。

false

Equipment

object

设备识别配置。

Enabled

boolean

是否开启禁用设备检查，默认 false

false

HeadMotion

object

头部动作识别配置。

Enabled

boolean

是否开启头部动作识别检查。默认 false

false

LookAway

object

视线偏移识别配置。

Enabled

boolean

是否开启视线偏移配置。默认 false

true

AmbientSoundConfig

object

通话环境音配置。

ResourceId

string

通话环境音 ID，可以在控制台上智能体配置的高级配置中获取。

f67901c595834************

Volume

integer

通话背景音的音量，可选值：[0, 100]，0 表示关闭。

50

AutoSpeechConfig

object

智能体自动说话配置模块，包括 LLM 等待提示和用户长时间静默问询。

UserIdle

object

用户长时间静默时的问询播报配置。

WaitTime

integer

静默时长阈值，单位毫秒，必填。超过此时长触发问询。范围 5000–600000ms。

5000

MaxRepeats

integer

最大问询次数，范围 0–10，必填。超过后不再触发，直接关闭通话。

5

Messages

array

问询提示语集合，最大 10 条，每条长度 ≤ 100 字符，概率总和为 100%。

object

问询词结构

Text

string

问询提示语文本，最长 100 字符。

您还在吗？

Probability

number

提示语的选择概率，范围 0–1，对应 0%-100%。

0.5

HangupEndWord

string

LlmPending

object

LLM 响应延迟时的播报配置。

WaitTime

integer

等待大模型回复时长阈值。超过此时长，触发播报提示。必填，单位毫秒，范围 500–10000ms。请用户根据大模型的实际使用。

3000

Mode

string

Messages

array

问询提示语集合，最大 10 条，每条长度 ≤ 100 字符，概率总和为 100%。

object

问询词结构

Text

string

问询提示语文本，最长 100 字符。

稍等一下

Probability

number

提示语的选择概率，范围 0–1，对应 0%-100%。

0.5

BackChannelingConfigs

array

附和语功能配置模块。开启后，系统会在特定触发时机随机播报简短的附和语。

object

单个附和语配置

Enabled

boolean

是否启用附和功能。必填，取值 true/false。

true

TriggerStage

string

附和触发的时机。可选值：

pause_detected（检测到说话短暂停顿）

pause_detected

Probability

number

功能触发概率。范围 0.0–1.0。必填。

0.5

Words

array

附和短语集合。最大 10 条，每条短语长度 ≤ 20 字符，概率总和为 1.0。

object

附和短语配置

Text

string

短语文本，长度 ≤ 20 字符，支持多语言。必填。

嗯嗯

Probability

number

本短语的触发概率，范围 0.0–1.0，必填。

0.3

BackChannelingConfig

array

重要已废弃，请使用 BackChannelingConfigs

object

单个附和语配置

Enabled

boolean

是否启用附和功能。必填，取值 true/false。

true

TriggerStage

string

附和触发的时机。可选值：

pause_detected（检测到说话短暂停顿）

pause_detected

Probability

number

功能触发概率。范围 0.0–1.0。必填。

0.5

Words

array

附和短语集合。最大 10 条，每条短语长度 ≤ 20 字符，概率总和为 1.0。

object

附和短语配置

Text

string

短语文本，长度 ≤ 20 字符，支持多语言。必填。

嗯嗯

Probability

number

本短语的触发概率，范围 0.0–1.0，必填。

0.3