文档

方案介绍

更新时间:

本文将介绍包含UI组件的AI实时互动解决方案。

方案介绍

本方案基于AICallKit SDK,提供了相应的音视频应用UI组件。您可以根据业务需求,灵活复用AUI Kits低代码应用方案中的功能模块,以快速搭建AI实时互动应用。该方案专为希望高效快速构建AI实时互动场景的企业和开发者设计。通过复用这些功能模块,用户能够显著减少开发时间和成本,同时确保应用的质量与稳定性。

Demo体验

详细体验流程,请前往Demo体验

功能说明

功能

说明

实时通话

依托阿里云实时音视频方案,用户可以与AI智能体进行全球范围的高可靠、低延时通话。

实时工作流

您可以使用白屏化的方式,灵活地编排智能体AI的工作流。

  • 语音转文字:

    • 预置阿里云通义产品能力。

    • 支持将讯飞的语音转文字能力作为第三方插件进行集成。

  • 语音合成(文字转语音):

    • 预置阿里云通义的产品能力。

    • 采用标准协议与您自主研发的语音合成模块进行对接。

    • 支持将MiniMax的语音能力作为第三方插件进行集成。

  • 文生文大语言模型:

    • 预置阿里云通义的产品能力。

    • 选择阿里云百炼平台上模型中心、应用中心的AI模型。

    • 按照OpenAI规范或阿里规范来接入自研的大语言模型。

  • 数字人

    • 支持将相芯数字人能力作为第三方插件进行集成。

智能打断

AI智能体智能识别用户的对话打断意图。

智能降噪

AI智能体将自动过滤对话过程中用户侧产生的嘈杂音。当用户侧有多个人同时说话时,将优先采集音量最大的人声。

智能体优雅下线

当需要停止智能体任务时,可以允许智能体任务在完成当前内容输出后再进行停止,以避免对话出现生硬的中断。

AI智能体状态

提供AI智能体状态的实时信息,以便终端能够将状态反馈给用户。

  • 聆听中:用户正在讲话,AI智能体已经接收到相关信息。

  • 思考中:用户已经完成说话,AI智能体正在对接收到的内容进行处理,但尚未向用户输出。

  • 输出中:AI智能体正在说话。

智能体状态回调

将智能体的运行状态实时回调给客户。

实时播报

AI智能体和用户的对话信息将会被实时转换成文字,并由客户端进行展示。

欢迎词

您可以在用户与AI智能体开始对话时设置欢迎词。目前该功能正在邀测中,如需开通请通过工单联系我们开通。

数据归档

将用户与AI智能体的对话转化为文本信息并进行存储,企业可通过API接口调用以消费这部分数据。同时,企业可以将用户与AI智能体通话的音视频数据存储至对象存储服务(OSS)或视频点播(VOD)平台。