AI实时互动场景_音视频终端 SDK(Apsara Video SDK)-阿里云帮助中心

AUI Kits低代码应用方案为AI实时互动场景提供了两种集成方式，您可以根据业务需求选择您需要的集成方案，快速搭建AI实时互动应用。

场景概述

AI实时互动是一种旨在帮助企业快速构建AI与用户之间的音视频通话应用的解决方案。用户只需通过白屏化的界面操作，即可在10分钟内构建一个专属的AI智能体，并通过视频云通讯网络与终端用户进行实时交互。该方案适用于网络客服、AI助理、AI伴侣、撮合助手、虚拟老师等多种应用场景，使用户能够在短时间内快速构建AI实时互动能力。

应用能力

在AI实时互动功能中，AI智能体被定义为云端高拟真用户，用于实现与用户的音视频交互。为了满足不同的交互需求，您需要为智能体配置相应的工作流。阿里云为您提供了四种工作流类型，以满足您的业务需求。

语音通话

用户通过语音与智能助手交流对话，获取即时的信息反馈和服务。

lQDPJxfI6jx3dVXNC6zNBaCwBmqQRhnIAYIHiTmemZYXAA_1440_2988

数字人通话

通过视频方式与数字人对话，为用户提供更加真实的互动体验。

lQDPJwMuwU90JFXNC6zNBaCwNbn8uKeIjbgHiTmd5-WQAA_1440_2988

视觉理解通话

通过视频方式与智能体互动，智能体结合语音和拍摄画面提供反馈。

lQDPJwpRBT4ppFXNC6zNBaCwzODP1_m-L7MHiTmc7Nh_AA_1440_2988

消息对话

通过语音或文本以聊天对话框的形式直接与智能体进行交流。

lQDPKHl9TD29I1XNC6zNBaCwklTx59f8apsHiTmbKaTPAA_1440_2988

以创建语音通话工作流模板为例：

您只需要配置以下3个节点，就能完成语音通话工作流的创建。

您可以前往Demo体验，以全面了解上述能力。

您也可以前往快速入门，开始AI实时互动能力的构建。

产品优势

全球高可用、低延迟：依托阿里云的实时音视频网络体系，全球3200+节点覆盖和QoS优化，使得用户可以在全球的任何位置与AI智能体流畅的完成音视频通话。
易接入、易调试：您可以将AI组件（如语音转文字、大模型、语音合成、自研向量数据库等）以插件的形式整合到工作流中，从而迅速开展业务，并在此过程中便捷地对整体技术方案进行调试。

高度拟人化：阿里云通过持续迭代和优化智能降噪、智能打断、智能断句等功能，使智能体在互动行为上更接近于人类。
易集成：阿里云为您提供四种集成方式来帮助您搭建AI实时互动系统，以满足不同场景和需求下的应用构建。

实现原理

用户通过终端SDK发起与云端AI智能体的实时音视频通话；
AI智能体接收到用户的音视频输入后，开始运转工作流，并输出AI的响应结果；
AI智能体将响应结果的音视频流推送到ARTC网络，用户可以订阅该音视频流进行播放，从而完成用户与AI智能体的对话。

功能说明

功能	说明

功能	说明
实时通话（ARTC）	阿里云实时音视频方案，依托该方案用户可以与AI智能体进行全球范围的高可靠、低延时通话。
实时工作流	您可以使用白屏化的方式，灵活地编排智能体AI的工作流。语音转文字：预置阿里云通义产品能力。支持将讯飞的语音转文字能力作为第三方插件进行集成。语音合成（文字转语音）：预置阿里云通义的产品能力。采用标准协议与您自主研发的语音合成模块进行对接。支持将MiniMax的语音能力作为第三方插件进行集成。文生文大语言模型：预置阿里云通义的产品能力。选择阿里云百炼平台上模型中心、应用中心的AI模型。按照OpenAI规范或阿里规范来接入自研的大语言模型。数字人支持将相芯数字人能力作为第三方插件进行集成。视频抽帧多模态语言大模型预置阿里云通义产品能力。按照OpenAI规范来接入自研的多模态大语言模型。
自定义智能体形象	您可以为所创建的智能体上传一张图片，以便在语音通话场景中展示该智能体的形象。
智能体情绪识别	智能体能够识别用户当前的情绪，并做出带有情感色彩的回应。
欢迎词	您可以在控制台中配置欢迎词内容，当用户与AI智能体开始对话时，智能体将播报该欢迎词内容。
主动播报	业务服务器可以通过OpenAPI的形式，让智能体主动向用户输出音视频内容。
实时字幕	用户与智能体之间的对话内容可在终端用户界面上实时呈现。
智能降噪	AI智能体将自动过滤对话过程中用户侧产生的嘈杂音。当用户侧有多个人同时说话时，将优先采集音量最大的人声。
智能打断	在与AI智能体对话时，AI智能体能够有效识别用户在对话中的打断意图。
智能断句	智能体能够自动识别并分割长句或复杂句，以提升文本的可读性和用户体验。
对讲机模式	用户可以在启动或者通话中设置通话模式为对讲机模式，通过按下按钮与智能体进行交互。
ASR热词	您可以定义业务相关的热词，以此提升AI智能体在语音识别中的准确率。
声纹降噪	在多人交谈的场景中，智能体通过识别主讲人的声纹特征，更加精确地捕捉和保留主讲人的语音，同时降低对无关噪音的干扰。
真人接管	在用户与智能体进行交互时，如遇无法处理的情况或需做出关键决策时，可以选择由真人进行接管以做出决策。
优雅下线	当业务服务器需要停止智能体时，允许智能体完成当前对话的表达后再进行停止操作，以避免对话被生硬地打断。
数据归档	将用户与AI智能体的对话转化为文本信息并进行存储，企业可通过API接口调用以消费这部分数据。同时，企业可以将用户与AI智能体通话的音视频数据存储至对象存储服务（OSS）或视频点播（VOD）平台。