AI实时对话智能体控制它操作指南

Al实时对话智能体服务,可以通过服务端API启动智能体,并加入到指定的 RTC 频道,然后就可以在频道中与智能体进行实时对话。通过阅读本文,您可以了解开通AI实时对话智能体的方法。

操作步骤

  1. 登录音视频通信RTC控制台

  2. 在左侧导航栏选择AI实时对话智能体/智能体管理,进入智能体管理界面。

  3. 在智能体管理界面选择需要开通智能体的AppID(必须选择3.0版本)。

  4. 单击“AI 实时对话智能体”单选框,激活智能体功能。

    1. 设置智能体基础信息

      参数

      描述

      智能体名称

      为智能体设定的一个便于识别的名称,用以体现其核心功能和用途。

      是否必选

      智能体类型

      目前支持“语音通话”。

      必选

      通话模式

      支持:“自然对话模式”和“对讲机模式”。

      “自然对话模式”:类似日常电话通话,双方可同时讲话和倾听,交流更流畅自然;

      “对讲机模式”:像实体对讲机,一次只能一方说话,对方在结束后才能回应,适合指令式、单向清晰的场景。

      必选

      智能打断

      支持:“支持打断”和“禁止打断”。

      “智能打断”是指在机器人或语音助手说话过程中,用户可以直接开口或发出特定指令,中途打断它的发言,并让系统立即停下来倾听新问题或指令,从而更快地进入下一步交流。这样可以避免等待机器人把话说完,使对话过程更灵活、高效,也更贴近人与人之间的自然交流。

      必选

      Prompt

      支持自定义。

      “Prompt” 就是你给智能体下的一条隐形指令或说明书,告诉它该用什么身份、风格和方式来回答问题。

      可选

      欢迎语

      设置智能体与用户说的第一句话。

      可选

    2. 设置智能体ASR语音识别配置

      参数

      描述

      是否必选

      ASR名称

      ASR的当前配置设定的一个便于识别的名称,用以体现其场景或用途。

      必选

      语音断句检测阈值

      此设置决定了当用户说话停顿下来时,机器需要等待多久才会认为用户的一句话已经说完了。

      默认500毫秒,允许范围[200,6000]。

      如果设置“人声持续阈值”,建议该值大于“人声持续阈值”。

      必选

      人声持续阈值(ms)

      设定了一个声音的“门槛”,只有当机器检测到的声音片段超过这个门槛时,才会被认定为是您在说话,并开始进行识别。

      默认300毫米。

      可选

      自定义热词

      通过设置自定义热词,可以将特殊的词汇提前“教”给智能体,让它重点记忆。

      可选

    3. 设置智能体LLM配置

      参数

      描述

      是否必选

      LLM名称

      为大型语言模型(LLM)设置的名称,用以体现其场景或用途。

      必选

      模型提供商

      选择大型语言模型(LLM)的提供商。

      目前仅支持阿里云。

      必选

      模型选择

      选择具体的大语言模型。

      目前支持"Qwen-Plus"、"DeepSeek-R1"、"BailianAgent"

      必选

      ApiKey

      设置服务供应商提供的大型语言模型(LLM)API调用的鉴权凭证。

      必选

      Temperature

      “Temperature”(温度)参数,通俗地理解为一个控制AI回答“创造性”与“严谨性”的调节旋钮。

      Temperature(例如0.2):这就像把旋钮调到“严谨”模式。

      Temperature(例如1.8或更高):这就像把旋钮调到“创意”模式 。

      默认值为0.7,取值范围为[0,2)

      可选

      TopP

      “Top-P”参数决定了AI在选择下一个词时,其“候选词名单”的大小。

      较高的Top-P(例如0.9):AI会创建一个更大的“候选名单”,包含更多可能性,这使得它的回答更具多样性、创造性和趣味性,但同时也增加了出现不相关或无意义内容的风险。

      较低的Top-P(例如0.2):AI会创建一个非常小的“候选名单”,通常只包含最安全、最符合逻辑的几个选项 。这使得它的回答更加保守、确定和可预测,答案会更加集中和准确。

      采样的选择范围 (0,1],默认值 0.8。

      可选

      MaxToken

      最大输出长度,通俗地理解为给AI设置的“本次回答字数限制”。

      在实际使用中,可近似地认为一个汉字约等于一个token,一个英文单词约等于1.3tokens,以便估算所需长度。

      默认值8192。

      可选

      HistoryDepth

      给大模型提供多少历史对话轮次,用来控制AI在连续对话中的“记性”好坏。一个合适的“记忆容量”能让对话更连贯、更智能,避免AI在多轮交流后忘记你们之前聊过的话题。

      最大 100,最小 0,默认值 3。

      可选

    4. 设置智能体TTS 文字转语音配置

      参数

      描述

      是否必选

      TTS名称

      为文本转语音(TTS)服务设置的名称,用以体现其场景或用途。

      1~128位,支持中文、英文、数字、下划线、中划线

      必选

      提供方

      选择文字转语音(TTS)服务的提供商。

      目前仅支持阿里云。

      必选

      Model

      选择具体的文字转语音(TTS)的具体模型。

      目前支持"CosyVoice-V1"、"CosyVoice-V2"

      必选

      ApiKey

      设置服务供应商提供的文字转语音(TTS)服务API调用的鉴权凭证。

      必选

      音色

      根据试听效果进行选择。

      可选

      音量

      取值范围[0~100],默认 50。

      可选

      语速

      取值范围[0.5~2.0],默认 1.0。

      可选

      音调

      取值范围[0.5~2.0],默认 1.0。

      可选

      过滤设置

      过滤设定符号范围内的字符不被转成语音。

      可选

  5. 点击“创建智能体”按钮,按照要求设置智能体参数。

  6. 点击“提交”按钮,完成智能体创建。