Al实时对话智能体服务,可以通过服务端API启动智能体,并加入到指定的 RTC 频道,然后就可以在频道中与智能体进行实时对话。通过阅读本文,您可以了解开通AI实时对话智能体的方法。
操作步骤
登录音视频通信RTC控制台。
在左侧导航栏选择AI实时对话智能体/智能体管理,进入智能体管理界面。
在智能体管理界面选择需要开通智能体的AppID(必须选择3.0版本)。
单击“AI 实时对话智能体”单选框,激活智能体功能。
设置智能体基础信息:
参数
描述
智能体名称
为智能体设定的一个便于识别的名称,用以体现其核心功能和用途。
是否必选
智能体类型
目前支持“语音通话”。
必选
通话模式
支持:“自然对话模式”和“对讲机模式”。
“自然对话模式”:类似日常电话通话,双方可同时讲话和倾听,交流更流畅自然;
“对讲机模式”:像实体对讲机,一次只能一方说话,对方在结束后才能回应,适合指令式、单向清晰的场景。
必选
智能打断
支持:“支持打断”和“禁止打断”。
“智能打断”是指在机器人或语音助手说话过程中,用户可以直接开口或发出特定指令,中途打断它的发言,并让系统立即停下来倾听新问题或指令,从而更快地进入下一步交流。这样可以避免等待机器人把话说完,使对话过程更灵活、高效,也更贴近人与人之间的自然交流。
必选
Prompt
支持自定义。
“Prompt” 就是你给智能体下的一条隐形指令或说明书,告诉它该用什么身份、风格和方式来回答问题。
可选
欢迎语
设置智能体与用户说的第一句话。
可选
设置智能体ASR语音识别配置:
参数
描述
是否必选
ASR名称
为ASR的当前配置设定的一个便于识别的名称,用以体现其场景或用途。
必选
语音断句检测阈值
此设置决定了当用户说话停顿下来时,机器需要等待多久才会认为用户的一句话已经说完了。
默认500毫秒,允许范围[200,6000]。
如果设置“人声持续阈值”,建议该值大于“人声持续阈值”。
必选
人声持续阈值(ms)
设定了一个声音的“门槛”,只有当机器检测到的声音片段超过这个门槛时,才会被认定为是您在说话,并开始进行识别。
默认300毫米。
可选
自定义热词
通过设置自定义热词,可以将特殊的词汇提前“教”给智能体,让它重点记忆。
可选
设置智能体LLM配置:
参数
描述
是否必选
LLM名称
为大型语言模型(LLM)设置的名称,用以体现其场景或用途。
必选
模型提供商
选择大型语言模型(LLM)的提供商。
目前仅支持阿里云。
必选
模型选择
选择具体的大语言模型。
目前支持"Qwen-Plus"、"DeepSeek-R1"、"BailianAgent"
必选
ApiKey
设置服务供应商提供的大型语言模型(LLM)API调用的鉴权凭证。
必选
Temperature
“Temperature”(温度)参数,通俗地理解为一个控制AI回答“创造性”与“严谨性”的调节旋钮。
低Temperature(例如0.2):这就像把旋钮调到“严谨”模式。
高Temperature(例如1.8或更高):这就像把旋钮调到“创意”模式 。
默认值为0.7,取值范围为[0,2)
可选
TopP
“Top-P”参数决定了AI在选择下一个词时,其“候选词名单”的大小。
较高的Top-P(例如0.9):AI会创建一个更大的“候选名单”,包含更多可能性,这使得它的回答更具多样性、创造性和趣味性,但同时也增加了出现不相关或无意义内容的风险。
较低的Top-P(例如0.2):AI会创建一个非常小的“候选名单”,通常只包含最安全、最符合逻辑的几个选项 。这使得它的回答更加保守、确定和可预测,答案会更加集中和准确。
采样的选择范围 (0,1],默认值 0.8。
可选
MaxToken
最大输出长度,通俗地理解为给AI设置的“本次回答字数限制”。
在实际使用中,可近似地认为一个汉字约等于一个token,一个英文单词约等于1.3个tokens,以便估算所需长度。
默认值8192。
可选
HistoryDepth
给大模型提供多少历史对话轮次,用来控制AI在连续对话中的“记性”好坏。一个合适的“记忆容量”能让对话更连贯、更智能,避免AI在多轮交流后忘记你们之前聊过的话题。
最大 100,最小 0,默认值 3。
可选
设置智能体TTS 文字转语音配置:
参数
描述
是否必选
TTS名称
为文本转语音(TTS)服务设置的名称,用以体现其场景或用途。
1~128位,支持中文、英文、数字、下划线、中划线
必选
提供方
选择文字转语音(TTS)服务的提供商。
目前仅支持阿里云。
必选
Model
选择具体的文字转语音(TTS)的具体模型。
目前支持"CosyVoice-V1"、"CosyVoice-V2"
必选
ApiKey
设置服务供应商提供的文字转语音(TTS)服务API调用的鉴权凭证。
必选
音色
根据试听效果进行选择。
可选
音量
取值范围[0~100],默认 50。
可选
语速
取值范围[0.5~2.0],默认 1.0。
可选
音调
取值范围[0.5~2.0],默认 1.0。
可选
过滤设置
过滤设定符号范围内的字符不被转成语音。
可选
点击“创建智能体”按钮,按照要求设置智能体参数。
点击“提交”按钮,完成智能体创建。