AI实时互动介绍-智能媒体服务(IMS)-阿里云帮助中心

产品简介

AI实时互动是一种旨在帮助企业快速构建AI与用户之间的音视频通话应用的解决方案。用户只需通过可视化配置界面操作，即可在10分钟内构建一个专属的AI智能体，并通过视频云通讯网络与终端用户进行实时交互。该方案适用于网络客服、AI助理、AI伴侣、撮合助手、虚拟老师等多种应用场景，使用户能够在短时间内快速构建AI实时互动能力。

应用能力

在AI实时互动功能中，AI智能体被定义为云端高拟真用户，用于实现与用户的音视频通话、消息对话和AI电话呼出/呼入。为了满足不同的交互需求，您可以为智能体配置相应的工作流，并且实现以下能力：

音视频通话

语音通话

用户通过语音与智能助手交流对话。

555d2e763e3c49c23ac59cb7060d2a44

数字人通话

通过视频与数字人互动，提升用户体验真实性。

lQDPJwMuwU90JFXNC6zNBaCwNbn8uKeIjbgHiTmd5-WQAA_1440_2988

视觉理解通话

通过视频互动，智能体结合语音和画面提供反馈。

lQDPJwpRBT4ppFXNC6zNBaCwzODP1_m-L7MHiTmc7Nh_AA_1440_2988

视频通话

数字人结合视觉理解，与用户双向视频通话。

以音视频通话快速入门为例：

您只需要配置以下3个节点，就能完成语音通话工作流的创建。

消息对话

通过语音或文本以聊天对话框的形式直接与智能体进行交流。

以消息对话快速入门为例：

您只需要配置以下流程，就能完成消息对话的创建。

AI电话呼出/呼入

AI语音智能体支持电话通话，满足企业RTC与电话双需求。一个智能体支持多线路，帮助企业只需维护一套系统，即可实现多线路AI通话。

说明

AI电话通话可在音乐、拍桌子等环境噪声中流畅进行。

以电话呼出&呼入快速入门为例：

您只需要配置以下3个节点，就能完成语音通话工作流的创建，并进行电话呼出/呼入。

前往AI体验馆，快速体验AI实时互动。

前往Demo体验，以全面了解上述能力。

基本概念

SessionId	SessionId由开发者自行定义，建议开发者将其设为聊天记录的唯一标识。用法示例：用户关联：用户在手机端或PC端与AI进行对话时，可通过sessionId在不同时间进行关联。会话关联：用户发起了多次会话，可以用sessionId来隔离。
消息对话	用户可以通过语音或文本以聊天对话框的形式与智能体进行交互，使双方能够快速分享想法、提出问题或获取信息。
语音通话	用户可以与智能助手进行语音交互，从而获得及时的信息反馈和服务支持。
3D数字人通话	利用3D技术模拟虚拟人物形象进行互动，3D数字人不仅能够实现语音交互，还能够通过丰富的肢体动作和面部表情，增强用户体验的真实感与参与度。
视觉理解通话	融合视频与音频的新型交互方式，它能够实时解析摄像头捕捉的画面，结合用户语音指令，通过多模态交互提供精准反馈，让用户在通话过程中获得更加直观、高效且个性化的智能交互体验，打破传统语音或文字交流的局限。
视频通话	结合数字人和视觉理解的优势，让用户在与数字人视频通话时，同时显示数字人和用户的视频画面，数字人能理解用户视频的画面，并作出反馈，增强互动感、真实感。
互动消息	直播互动消息是用于加强用户之间消息沟通、提升交互体验的服务。
实时音视频 ARTC	用户与AI智能体进行实时音视频通话时，需要借助WebRTC技术来提供保障。阿里云实时音视频ARTC依托全球3200+节点及多年的音视频技术积累，为用户提供高可用、高品质、超低延时的音视频通信服务。更多详情请参见实时音视频简介。
实时工作流	实时工作流是AI智能体的重要组成部分。它可以通过插件式和拖拽式的方式灵活地编排各个AI组件，例如语音转文字、大模型、语音合成和自研向量数据库等。AI智能体将按照预先定义的工作流程进行运作。
AI智能体	AI智能体是AI实时互动方案中定义的云端高拟真用户，AI智能体可以是由系统预置或者用户自行创建的，并且能够直接与最终用户进行音视频交互。

产品优势

全球高可用、低延迟：依托阿里云的实时音视频网络体系，全球3200+节点覆盖和QoS优化，使得用户可以在全球的任何位置与AI智能体流畅的完成音视频通话。
易接入、易调试：您可以将AI组件（如语音转文字、大模型、语音合成、自研向量数据库等）以插件的形式整合到工作流中，从而迅速开展业务，并在此过程中便捷地对整体技术方案进行调试。
高度拟人化：阿里云通过持续迭代和优化智能降噪、智能打断、智能断句等功能，使智能体在互动行为上更接近于人类。
易集成：阿里云为您提供四种集成方式来帮助您搭建AI实时互动系统，以满足不同场景和需求下的应用构建。

实现原理

用户通过终端SDK发起与云端AI智能体的实时音视频通话；
AI智能体接收到用户的音视频输入后，开始运转工作流，并输出AI的响应结果；
AI智能体将响应结果的音视频流推送到ARTC网络，用户可以订阅该音视频流进行播放，从而完成用户与AI智能体的对话。

功能说明

功能	说明
实时工作流	您可以使用白屏化的方式，灵活地编排智能体AI的工作流。语音转文字：预置阿里云千问产品能力。支持将讯飞的语音转文字能力作为第三方插件进行集成。语音合成（文字转语音）：预置阿里云千问的产品能力。采用标准协议与您自主研发的语音合成模块进行对接。支持将MiniMax的语音能力作为第三方插件进行集成。文生文大语言模型：预置阿里云千问的产品能力。选择阿里云百炼平台上模型中心、应用中心的AI模型。按照OpenAI规范来接入自研的大语言模型。数字人支持将相芯数字人能力作为第三方插件进行集成。视频抽帧多模态语言大模型预置阿里云千问产品能力。按照OpenAI规范来接入自研的多模态大语言模型。
智能体电话呼出	智能体通过运营商线路直接向用户手机号发起电话呼出，可应用于电话营销、电话通知等场景。电话呼出&呼入快速入门
自定义智能体形象	您可以为所创建的智能体上传一张图片，以便在语音通话场景中展示该智能体的形象。
智能体情绪识别	智能体能够识别用户当前的情绪，并做出带有情感色彩的回应。
欢迎词	您可以在控制台中配置欢迎词内容，当用户与AI智能体开始对话时，智能体将播报该欢迎词内容。
主动播报	业务服务器可以通过OpenAPI的形式，让智能体主动向用户输出音视频内容。
实时字幕	用户与智能体之间的对话内容可在终端用户界面上实时呈现。
智能降噪	AI智能体将自动过滤对话过程中用户侧产生的嘈杂音。当用户侧有多个人同时说话时，将优先采集音量最大的人声。
智能打断	在与AI智能体对话时，AI智能体能够有效识别用户在对话中的打断意图。
智能断句	智能体能够自动识别并分割长句或复杂句，以提升文本的可读性和用户体验。
音频逐句回调	您可以在控制台进行回调配置将实时音频数据存储到OSS中。
对讲机模式	用户可以在启动或者通话中设置通话模式为对讲机模式，通过按下按钮与智能体进行交互。
ASR热词	您可以定义业务相关的热词，以此提升AI智能体在语音识别中的准确率。
声纹降噪	在多人交谈的场景中，智能体通过识别主讲人的声纹特征，更加精确地捕捉和保留主讲人的语音，同时降低对无关噪音的干扰。
真人接管	在用户与智能体进行交互时，如遇无法处理的情况或需做出关键决策时，可以选择由真人进行接管以做出决策。
优雅下线	当业务服务器需要停止智能体时，允许智能体完成当前对话的表达后再进行停止操作，以避免对话被生硬地打断。
数据归档	将用户与AI智能体的对话转化为文本信息并进行存储，企业可通过API接口调用以消费这部分数据。同时，企业可以将用户与AI智能体通话的音视频数据存储至对象存储服务（OSS）或视频点播（VOD）平台。

计费说明

详细计费内容，请前往AI实时互动计费说明。

常见问题

联系我们

更多产品咨询问题或使用支持，欢迎通过钉钉搜索群号106730016696，加入群聊联系我们。

AI实时互动概览