AI实时互动解决方案功能详解-音视频终端 SDK-阿里云

备案控制台

输入文档关键字查找

本文将介绍包含UI组件的AI实时互动解决方案。

方案介绍

本方案基于AICallKit SDK，提供了相应的音视频应用UI组件。您可以根据业务需求，灵活复用AUI Kits低代码应用方案中的功能模块，以快速搭建AI实时互动应用。该方案专为希望高效快速构建AI实时互动场景的企业和开发者设计。通过复用这些功能模块，用户能够显著减少开发时间和成本，同时确保应用的质量与稳定性。各个端的集成，请参见以下内容：

服务端开发，请参见服务端集成、API说明。

Demo体验

详细体验流程，请前往Demo体验。

功能说明

功能	说明
实时工作流	您可以使用白屏化的方式，灵活地编排智能体AI的工作流。语音转文字：预置阿里云通义产品能力。支持将讯飞的语音转文字能力作为第三方插件进行集成。语音合成（文字转语音）：预置阿里云通义的产品能力。采用标准协议与您自主研发的语音合成模块进行对接。支持将MiniMax的语音能力作为第三方插件进行集成。文生文大语言模型：预置阿里云通义的产品能力。选择阿里云百炼平台上模型中心、应用中心的AI模型。按照OpenAI规范来接入自研的大语言模型。数字人支持将相芯数字人能力作为第三方插件进行集成。视频抽帧多模态语言大模型预置阿里云通义产品能力。按照OpenAI规范来接入自研的多模态大语言模型。
智能体电话呼出	智能体通过运营商线路直接向用户手机号发起电话呼出，可应用于电话营销、电话通知等场景。电话呼出快速入门
自定义智能体形象	您可以为所创建的智能体上传一张图片，以便在语音通话场景中展示该智能体的形象。
智能体情绪识别	智能体能够识别用户当前的情绪，并做出带有情感色彩的回应。
欢迎词	您可以在控制台中配置欢迎词内容，当用户与AI智能体开始对话时，智能体将播报该欢迎词内容。
主动播报	业务服务器可以通过OpenAPI的形式，让智能体主动向用户输出音视频内容。
实时字幕	用户与智能体之间的对话内容可在终端用户界面上实时呈现。
智能降噪	AI智能体将自动过滤对话过程中用户侧产生的嘈杂音。当用户侧有多个人同时说话时，将优先采集音量最大的人声。
智能打断	在与AI智能体对话时，AI智能体能够有效识别用户在对话中的打断意图。
智能断句	智能体能够自动识别并分割长句或复杂句，以提升文本的可读性和用户体验。
音频逐句回调	您可以在控制台进行回调配置将实时音频数据存储到OSS中。
对讲机模式	用户可以在启动或者通话中设置通话模式为对讲机模式，通过按下按钮与智能体进行交互。
ASR热词	您可以定义业务相关的热词，以此提升AI智能体在语音识别中的准确率。
声纹降噪	在多人交谈的场景中，智能体通过识别主讲人的声纹特征，更加精确地捕捉和保留主讲人的语音，同时降低对无关噪音的干扰。
真人接管	在用户与智能体进行交互时，如遇无法处理的情况或需做出关键决策时，可以选择由真人进行接管以做出决策。
优雅下线	当业务服务器需要停止智能体时，允许智能体完成当前对话的表达后再进行停止操作，以避免对话被生硬地打断。
数据归档	将用户与AI智能体的对话转化为文本信息并进行存储，企业可通过API接口调用以消费这部分数据。同时，企业可以将用户与AI智能体通话的音视频数据存储至对象存储服务（OSS）或视频点播（VOD）平台。

上一篇：Demo体验下一篇：Android使用指南

该文章对您有帮助吗？