总览

本文提供关于AI实时互动技术的多种集成方案。通过阅读,您将深入了解每种方案的优势及其适用场景。

背景概述

随着AIGC的兴起,大型语言模型(LLM)的作用日益凸显。这些LLM作为AI智能体,尤其是那些能够结合内部知识库的模型,能够满足广泛的行业需求,如智能客服、个人助手等智能交互场景。此外,基于实时文本通讯的AI智能体越来越难以满足高效沟通的需求,因此出现了基于实时音视频通讯(RTC)的AI智能体,它们提供了更为丰富和直观的交互体验。

集成方案概览

阿里云为您提供四种集成方式来帮助您搭建AI实时互动系统,以满足不同场景和需求下的应用构建。通过灵活选择适合您的集成方案,您可以轻松实现网络客服、AI助理、撮合助手、数字人直播等多种功能,提升用户体验。

image
  • 基于AICallKit SDK阿里云提供了两种实现AI实时互动功能的方案:

    • 含UI集成:该方案基于AICallKit SDK,提供了包含音视频应用UI组件的低代码集成方案。您只需要通过简单的配置就能运行Demo,并且可以将整个UI组件集成到您的项目中,从而快速实现AI实时互动能力。

    • 不含UI集成:AICallKit SDK高度封装了AI实时互动的能力,这将显著降低与智能体、RTC相关功能的开发工作量。如果您希望自定义UI,快速实现AI实时互动能力,并且不需要考虑AI实时互动底层实现,可以考虑此方案。

    说明

    在使用AICallKit SDK进行集成时,您仍可以继续使用RTC SDK的相关接口。AICallKit SDK是基于RTC SDK进行部分封装的可靠场景化接口,既确保了便捷性,又保留了灵活性。因此,强烈建议您使用AICallKit SDK进行集成。

  • 基于ARTC SDK集成方案:该方案中您需在客户端集成ARTC SDK,配合调用AI实时互动接口实现AI互动能力。该方案开发工作量较以上两种方案稍大些,但是您可以根据自身需求进行高度自定义。

  • RTC纯通道接入方案:如果您已实现AI服务编排能力,无需阿里云AI实时互动服务,并希望获得高品质、低延迟的通话能力,您可以选择RTC纯通道接入方案。

高级功能

  • 智能体高级配置:AI智能体支持设定问候语、音色、智能打断功能。

  • 智能体通话记录:阿里云内置的语音识别技术,可以自动转录通话内容,从而便于您对通话记录进行审核、模型训练等操作。

  • 智能体回调:智能体回调允许您的应用在特定事件发生时自动触发预设的操作或响应。

  • 语音识别热词:如果您的业务中存在某些词汇识别效果不佳的情况,可以考虑使用热词功能,以提升识别效果。

  • 数字人集成:集成数字人后,可将工作流中的语音输入转化为数字人,从而提供更加丰富且生动的交互体验。