调用StartAgent API启动智能体-音视频通信-阿里云-音视频通信(RTC)-阿里云帮助中心

启动AI Agent

调试

您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。

调试

授权信息

下表是API对应的授权信息，可以在RAM权限策略语句的Action元素中使用，用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下：

操作：是指具体的权限点。
访问级别：是指每个操作的访问级别，取值为写入（Write）、读取（Read）或列出（List）。
资源类型：是指操作中支持授权的资源类型。具体说明如下：
- 对于必选的资源类型，用前面加 * 表示。
- 对于不支持资源级授权的操作，用全部资源表示。
条件关键字：是指云产品自身定义的条件关键字。
关联操作：是指成功执行操作所需要的其他权限。操作者必须同时具备关联操作的权限，操作才能成功。

操作

访问级别

资源类型

条件关键字

关联操作

rtc:StartAgent

create

*App

acs:rtc::{#accountId}:app/{#AppId}

无

请求参数

名称	类型	必填	描述	示例值
AppId	string	是	应用 ID，可通过控制台创建和查询，仅支持传单个 ID。	aoe****
ChannelId	string	是	加入的频道，仅支持传单个 ID。	yourChannelId
TaskId	string	是	任务 id	yourTaskId
TemplateId	string	是	模版 ID。	76dasgb****
RtcConfig	object	是	智能体加入 rtc 频道的配置	2
UserId	string	是	智能体在 rtc 频道中的 userId	423341
TargetUserIds	array	否	智能体订阅的用户 userId 列表，目前仅支持一个
	string	否	userId	41411
UserInactivityTimeout	integer	否	定义用户无活动状态的最大持续时间阈值（单位：秒）当检测到以下任一状态持续时间达到该阈值时，智能体将自动停止并退出频道： targetUserIds 列表中的所有用户已全部离开频道 targetUserIds 列表未加入频道默认值：30 取值范围：[5, 180]	30
VoiceChatConfig	object	否	AI 语音对话的配置
ChatMode	integer	否	1-自然对话模式 (默认值); 2-对讲机模式	1
InterruptMode	integer	否	1-支持语音打断 (默认值)，2-禁用语音打断	1
Greeting	string	否	问候语	早上好，我的朋友
ASRConfig	object	否	ASR 配置
SourceLanguage	string	否	无需设置	zh
SemanticPunctuationEnabled	boolean	否	语义断句/语音断句	false
MaxSentenceSilence	integer	否	语音断句检测阈值，默认 800ms，参考范围[200,6000]	800
VocabularyId	string	否	支持的热词 ID	vocab-xxx-24ee19fa8cfb4d52902170a0xxxxxxxx
LanguageHints	array	否	不设置，模型会自动识别语种。目前支持的语言代码： zh: 中文（支持方言：上海话、吴语、闽南语、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、江西话、宁夏话、山西话、陕西话、山东话、四川话、天津话、云南话、粤语） en: 英文 ja: 日语 yue: 粤语 ko: 韩语
	string	否	语言代码	zh
VadConfig	object	否	vad 配置。
InterruptSpeechDuration	integer	否	人声持续阈值 (ms)，取值范围为[0,3000]。持续检测到人声信号的最小时间长度，避免误打断。默认 300ms	300
LLMConfig	object	否	LLM 配置
Vendor	string	否	接入云服务提供商时，此字段表示服务商的名称。示例：aliyun[百炼]、thirdparty	aliyun
Model	string	否	模型名称 aliyun 服务商下支持模型: ["qwen-plus", "deepseek-r1", "qwen-omni-turbo"]	qwen-plus
ApiKey	string	否	服务商 apikey	xxxxxxxxxxx
Temperature	number	否	采样温度，用于控制生成文本的随机性和创造性，值越大随机性越高。默认值 0.7 取值范围[0,2) deepseek-r1 设置该参数不生效	0.7
TopP	number	否	采样的选择范围，控制输出 token 的多样性。模型将从概率分布中累计概率超过该取值的标记中进行采样，以确保采样的选择范围不会过宽，值越大输出的 token 类型越丰富。取值范围(0,1]，默认值 0.8	0.8
MaxToken	integer	否	输出文本的最大限制，默认值 8192 deepseek qwen 模型最大值为 8192	500
HistoryDepth	integer	否	给大模型提供多少历史对话轮次。默认值 3	3
Prompt	string	否	用于告知模型要扮演的角色或行为	xxxx
Url	string	否	接入第三方的大模型时，此字段表示大模型的接入 url	https://xxxxx
Params	object	否	用户自定义参数，键值对	{\"verification_code\": \"xxx\"}
BizParams	any	否
AppId	string	否	智能体应用 ID model，appId 二选一即可。如果 model，appId 都填写了，优先使用 appId	e****
ToolExecutionConfig	any	否
Tools	array	否
	any	否
TTSConfig	object	否	TTS 配置
Vendor	string	否	服务提供商【aliyun【百炼】】	aliyun
Model	string	否	模型名称【cosyvoice-v1】	cosyvoice-v1
ApiKey	string	否	服务商 apikey	xxxxxx
Voice	string	否	音色。如果选择阿里云 cosyvoice-v1，默认音色是 longxiaoxia 可选音色： longwan、longcheng、longhua、longxiaochun、longxiaoxia、longxiaocheng、longxiaobai、longlaotie、longshu、longshuo、longjing、longmiao、longyue、longyuan、longfei、longjielidou、longtong、longxiang、loongstella、loongbella	longxiaoxia
Volume	integer	否	音量（int），[0~100]，默认 50	50
Rate	number	否	语速（float）[0.5~2.0]，默认 1.0	1
Pitch	number	否	音调（float）[0.5~2.0]，默认 1.0	1
FilterBrackets	array	否	过滤设定符号范围内的字符不被转成语音
	integer	否	1-中文刮号（），2-英文刮号()，3-中文方头刮号【】，4-英文方刮号[]，5-英文花刮号{}	[1,2]
AgentSilenceConfig	object	否	当用户加入频道后，但未与智能体进行有效交互（用户未发言），此时智能体处于静默状态，可以配置智能体在静默状态下的行为：播报静默语音消息提醒或 webhook 通知。
Enable	boolean	否	开关	false
AlertTimeout	integer	否	静默提醒的超时时间（单位：秒）。可能多次触发，若智能体静默提醒超时后依然静默，则再超时还会继续触发取值范围：[5, 600]，默认值 0，0 表示不提醒	0
Strategy	integer	否	静默提醒的话术策略。 1 - 向用户语音播报 content 指定的提示消息 2 - 把 content 指定的提示消息和历史对话发送给 LLM，并播报模型生成的回复默认值：1	1
Content	string	否	静默提示消息的内容	**
WebhookTriggerTimeout	integer	否	触发智能体静默超时 webhook 的静默超时时间（单位：秒）。可能多次触发，若智能体 webhook 静默超时后依然静默，则再超时还会继续触发取值范围：[10, 600]，默认值 0，0 表示不触发	0
AmbientSoundConfig	object	否	环境音设置
SoundId	string	否	环境音计划支持内置与下载（后续），当前先实现内置模式当不传字段或者字段为空时，表示不开启环境音内置模式：agent 提供以下默认环境音：white_noise（白噪声）office（办公室）下载模式：支持客户在控制台填写 soundId（不可与内置 id 相同），并填写 url，agent 内部会进行下载并绑定。	white_noise
Volume	integer	否	环境音音量，默认 50（原声）。范围【0 - 100】	50
InterruptConfig	object	否	打断设置
SemanticsInterrupt	boolean	否	是否开启语义打断。默认值是 true	true
BackChannelConfig	object	否	承接词设置
UserTurnEnd	boolean	否	用户说完话后，是否开启承接词。默认值是 false	false
EnableVideoUnderstanding	boolean	否
preferVideo	integer	否

返回参数

名称	类型	描述	示例值
	object	Schema of Response
RequestId	string	Id of the request	6159ba01-6687-4fb2-a831-f0cd8d188648

示例

正常返回示例

JSON格式

{
  "RequestId": "6159ba01-6687-4fb2-a831-f0cd8d188648"
}

错误码

访问错误中心查看更多错误码。

变更历史

更多信息，参考变更详情。