音视频通话智能体集成

更新时间: 2025-02-11 15:54:28

本文将为您介绍如何基于AICallKit SDK集成音视频通话智能体。

集成概述

音视频通话智能体集成采用低代码方式,旨在实现智能体与实时音视频能力的深度融合,从而支持企业迅速构建智能化交互场景。该方案通过集成AICallKit SDK,助力您快速搭建智能体通话功能。

集成优势

  • 快速集成与开发效率提升:AICallKit SDK提供了高度封装的接口,开发者只需调用少量代码即可实现AI实时互动功能。

  • 跨平台支持:AICallKit SDK支持多个主流操作系统和平台,包括 iOS、Android、Web。开发者可以使用统一的 API 进行开发,确保应用在不同平台上具有一致的功能和用户体验。

  • 丰富的功能扩展:除了基本的通话功能外,AICallKit SDK 还提供了丰富的扩展功能,如智能体状态、实时字幕、打断智能体讲话等。开发者在通过不含UI集成时,可以根据实际需求灵活配置这些功能,满足不同应用场景下的个性化需求。

集成指南

阿里云基于AICallKit SDK为您提供了两种集成方案:一种是包含UI界面集成方案,另一种是不含UI界面集成方案。

  • 含UI集成:该方案基于AICallKit SDK,提供了包含音视频应用UI组件的低代码集成方案。您只需要通过简单的配置就能运行Demo,并且可以将整个UI组件集成到您的项目中,从而快速实现AI实时互动能力。

  • 不含UI集成:AICallKit SDK高度封装了AI实时互动的能力,这将显著降低与智能体、RTC相关功能的开发工作量。如果您希望自定义UI,快速实现AI实时互动能力,并且不需要考虑AI实时互动底层实现,可以考虑此方案。

说明

阿里云为不含UI集成方案提供了一些功能使用帮助,详细内容请参见功能实现

AICallKit SDK能力概览

功能项

功能描述

iOS & Android

Web

语音通话

用户通过语音与智能体交流对话,获取即时的信息反馈和服务。

✔️

✔️

数字人通话

通过视频方式与数字人对话,为用户提供更加真实的互动体验。

✔️

✔️

视觉理解通话

通过视频方式与智能体互动,智能体将结合用户的语音和摄像头画面来提供反馈。

✔️

✔️

智能体状态

为您提供AI智能体状态的实时信息,智能体状态包括:聆听中、思考中 、讲话中。

✔️

✔️

实时字幕

AI智能体和用户的对话信息将会被实时转换成文字,并由客户端进行展示。

✔️

✔️

打断功能

您可以向正在说话的智能体发送一个打断指令,智能体收到指令后,停止当前问题的回答。

✔️

✔️

智能打断

AI智能体智能识别用户的对话打断意图。

✔️

✔️

音色设置

您可以对智能体输出的音色进行配置,目前支持的音色详情列表,请参见智能语音效果示例百炼智能语音效果示例

✔️

✔️

对讲机模式

用户可以在启动或者通话中设置通话模式为对讲机模式,通过按下按钮与智能体进行交互。

✔️

✔️

声纹识别

在多人交谈的场景中,智能体通过识别主讲人的声纹特征,更加精确地捕捉和保留主讲人的语音,同时降低对无关噪音的干扰。

✔️

自定义消息

您可以在RTC自定义消息通道中发送您的定制信息。

✔️

✔️

本地设备管理

包括在通话过程中关闭扬声器、静音麦克风等功能。

✔️

✔️

智能体回调

您可以通过智能体回调接口来获取主讲人音量、网络等状态。

✔️

✔️

上一篇: 开发指南 下一篇: 含UI集成方案