音视频通话智能体集成
本文将为您介绍如何基于AICallKit SDK集成音视频通话智能体。
集成概述
音视频通话智能体集成采用低代码方式,旨在实现智能体与实时音视频能力的深度融合,从而支持企业迅速构建智能化交互场景。该方案通过集成AICallKit SDK,助力您快速搭建智能体通话功能。
集成优势
快速集成与开发效率提升:AICallKit SDK提供了高度封装的接口,开发者只需调用少量代码即可实现AI实时互动功能。
跨平台支持:AICallKit SDK支持多个主流操作系统和平台,包括 iOS、Android、Web。开发者可以使用统一的 API 进行开发,确保应用在不同平台上具有一致的功能和用户体验。
丰富的功能扩展:除了基本的通话功能外,AICallKit SDK 还提供了丰富的扩展功能,如智能体状态、实时字幕、打断智能体讲话等。开发者在通过不含UI集成时,可以根据实际需求灵活配置这些功能,满足不同应用场景下的个性化需求。
集成指南
阿里云基于AICallKit SDK为您提供了两种集成方案:一种是包含UI界面集成方案,另一种是不含UI界面集成方案。
含UI集成:该方案基于AICallKit SDK,提供了包含音视频应用UI组件的低代码集成方案。您只需要通过简单的配置就能运行Demo,并且可以将整个UI组件集成到您的项目中,从而快速实现AI实时互动能力。
不含UI集成:AICallKit SDK高度封装了AI实时互动的能力,这将显著降低与智能体、RTC相关功能的开发工作量。如果您希望自定义UI,快速实现AI实时互动能力,并且不需要考虑AI实时互动底层实现,可以考虑此方案。
阿里云为不含UI集成方案提供了一些功能使用帮助,详细内容请参见功能实现。
AICallKit SDK能力概览
功能项 | 功能描述 | iOS & Android | Web |
语音通话 | 用户通过语音与智能体交流对话,获取即时的信息反馈和服务。 | ✔️ | ✔️ |
数字人通话 | 通过视频方式与数字人对话,为用户提供更加真实的互动体验。 | ✔️ | ✔️ |
视觉理解通话 | 通过视频方式与智能体互动,智能体将结合用户的语音和摄像头画面来提供反馈。 | ✔️ | ✔️ |
智能体状态 | 为您提供AI智能体状态的实时信息,智能体状态包括:聆听中、思考中 、讲话中。 | ✔️ | ✔️ |
实时字幕 | AI智能体和用户的对话信息将会被实时转换成文字,并由客户端进行展示。 | ✔️ | ✔️ |
打断功能 | 您可以向正在说话的智能体发送一个打断指令,智能体收到指令后,停止当前问题的回答。 | ✔️ | ✔️ |
智能打断 | AI智能体智能识别用户的对话打断意图。 | ✔️ | ✔️ |
音色设置 | 您可以对智能体输出的音色进行配置,目前支持的音色详情列表,请参见智能语音效果示例、百炼智能语音效果示例。 | ✔️ | ✔️ |
对讲机模式 | 用户可以在启动或者通话中设置通话模式为对讲机模式,通过按下按钮与智能体进行交互。 | ✔️ | ✔️ |
声纹识别 | 在多人交谈的场景中,智能体通过识别主讲人的声纹特征,更加精确地捕捉和保留主讲人的语音,同时降低对无关噪音的干扰。 | ✔️ | ❌ |
自定义消息 | 您可以在RTC自定义消息通道中发送您的定制信息。 | ✔️ | ✔️ |
本地设备管理 | 包括在通话过程中关闭扬声器、静音麦克风等功能。 | ✔️ | ✔️ |
智能体回调 | 您可以通过智能体回调接口来获取主讲人音量、网络等状态。 | ✔️ | ✔️ |