在控制台创建并配置AI实时对话智能体-音视频通信-阿里云

备案控制台

输入文档关键字查找

Al实时对话智能体服务，可以通过服务端API启动智能体，并加入到指定的 RTC 频道，然后就可以在频道中与智能体进行实时对话。通过阅读本文，您可以了解开通AI实时对话智能体的方法。

操作步骤

登录音视频通信RTC控制台。
在左侧导航栏选择AI实时对话智能体/智能体管理，进入智能体管理界面。
在智能体管理界面选择需要开通智能体的AppID（必须选择3.0版本）。

单击“AI 实时对话智能体”单选框，激活智能体功能。

设置智能体基础信息：

参数	描述
智能体名称	为智能体设定的一个便于识别的名称，用以体现其核心功能和用途。	是否必选
智能体类型	目前支持“语音通话”。	必选
通话模式	支持：“自然对话模式”和“对讲机模式”。 “自然对话模式”：类似日常电话通话，双方可同时讲话和倾听，交流更流畅自然； “对讲机模式”：像实体对讲机，一次只能一方说话，对方在结束后才能回应，适合指令式、单向清晰的场景。	必选
智能打断	支持：“支持打断”和“禁止打断”。 “智能打断”是指在机器人或语音助手说话过程中，用户可以直接开口或发出特定指令，中途打断它的发言，并让系统立即停下来倾听新问题或指令，从而更快地进入下一步交流。这样可以避免等待机器人把话说完，使对话过程更灵活、高效，也更贴近人与人之间的自然交流。	必选
Prompt	支持自定义。 “Prompt” 就是你给智能体下的一条隐形指令或说明书，告诉它该用什么身份、风格和方式来回答问题。	可选
欢迎语	设置智能体与用户说的第一句话。	可选

设置智能体ASR语音识别配置：

参数	描述	是否必选
ASR名称	为ASR的当前配置设定的一个便于识别的名称，用以体现其场景或用途。	必选
语音断句检测阈值	此设置决定了当用户说话停顿下来时，机器需要等待多久才会认为用户的一句话已经说完了。默认500毫秒，允许范围[200，6000]。如果设置“人声持续阈值”，建议该值大于“人声持续阈值”。	必选
人声持续阈值（ms）	设定了一个声音的“门槛”，只有当机器检测到的声音片段超过这个门槛时，才会被认定为是您在说话，并开始进行识别。默认300毫米。	可选
自定义热词	通过设置自定义热词，可以将特殊的词汇提前“教”给智能体，让它重点记忆。	可选

设置智能体LLM配置：

参数	描述	是否必选
LLM名称	为大型语言模型（LLM）设置的名称，用以体现其场景或用途。	必选
模型提供商	选择大型语言模型（LLM）的提供商。目前仅支持阿里云。	必选
模型选择	选择具体的大语言模型。目前支持"Qwen-Plus"、"DeepSeek-R1"、"BailianAgent"	必选
ApiKey	设置服务供应商提供的大型语言模型（LLM）API调用的鉴权凭证。	必选
Temperature	“Temperature”（温度）参数，通俗地理解为一个控制AI回答“创造性”与“严谨性”的调节旋钮。低Temperature（例如0.2）：这就像把旋钮调到“严谨”模式。高Temperature（例如1.8或更高）：这就像把旋钮调到“创意”模式。默认值为0.7，取值范围为[0,2)	可选
TopP	“Top-P”参数决定了AI在选择下一个词时，其“候选词名单”的大小。较高的Top-P（例如0.9）：AI会创建一个更大的“候选名单”，包含更多可能性，这使得它的回答更具多样性、创造性和趣味性，但同时也增加了出现不相关或无意义内容的风险。较低的Top-P（例如0.2）：AI会创建一个非常小的“候选名单”，通常只包含最安全、最符合逻辑的几个选项。这使得它的回答更加保守、确定和可预测，答案会更加集中和准确。采样的选择范围 (0,1]，默认值 0.8。	可选
MaxToken	最大输出长度，通俗地理解为给AI设置的“本次回答字数限制”。在实际使用中，可近似地认为一个汉字约等于一个token，一个英文单词约等于1.3个tokens，以便估算所需长度。默认值8192。	可选
HistoryDepth	给大模型提供多少历史对话轮次，用来控制AI在连续对话中的“记性”好坏。一个合适的“记忆容量”能让对话更连贯、更智能，避免AI在多轮交流后忘记你们之前聊过的话题。最大 100，最小 0，默认值 3。	可选

设置智能体TTS 文字转语音配置：

参数	描述	是否必选
TTS名称	为文本转语音（TTS）服务设置的名称，用以体现其场景或用途。 1～128位，支持中文、英文、数字、下划线、中划线	必选
提供方	选择文字转语音（TTS）服务的提供商。目前仅支持阿里云。	必选
Model	选择具体的文字转语音（TTS）的具体模型。目前支持"CosyVoice-V1"、"CosyVoice-V2"	必选
ApiKey	设置服务供应商提供的文字转语音（TTS）服务API调用的鉴权凭证。	必选
音色	根据试听效果进行选择。	可选
音量	取值范围[0~100]，默认 50。	可选
语速	取值范围[0.5~2.0]，默认 1.0。	可选
音调	取值范围[0.5~2.0]，默认 1.0。	可选
过滤设置	过滤设定符号范围内的字符不被转成语音。	可选

点击“创建智能体”按钮，按照要求设置智能体参数。
点击“提交”按钮，完成智能体创建。

上一篇：接入工具下一篇：配置管理

该文章对您有帮助吗？