AI实时互动能够实现AI与用户之间的高效音视频互动,本文档介绍其应用能力和产品优势。
产品简介
AI实时互动是一种旨在帮助企业快速构建AI与用户之间的音视频通话应用的解决方案。用户只需通过可视化配置界面操作,即可在10分钟内构建一个专属的AI智能体,并通过视频云通讯网络与终端用户进行实时交互。该方案适用于网络客服、AI助理、AI伴侣、撮合助手、虚拟老师等多种应用场景,使用户能够在短时间内快速构建AI实时互动能力。
应用能力
在AI实时互动功能中,AI智能体被定义为云端高拟真用户,用于实现与用户的音视频通话和消息对话。为了满足不同的交互需求,您可以为智能体配置相应的工作流,并且实现以下能力:
音视频通话
语音通话 用户通过语音与智能助手交流对话。 | 数字人通话 通过视频与数字人互动,提升用户体验真实性。 | 视觉理解通话 通过视频互动,智能体结合语音和画面提供反馈。 | 视频通话 数字人结合视觉理解,与用户双向视频通话。 |
以音视频通话快速入门为例: 您只需要配置以下3个节点,就能完成语音通话工作流的创建。 |
消息对话
通过语音或文本以聊天对话框的形式直接与智能体进行交流。
以消息对话快速入门为例: 您只需要配置以下流程,就能完成消息对话的创建。 |
您可以前往Demo体验,以全面了解上述能力。
最新发布
零损语音断句AI比人更懂得何时该开口。 AI根据对话情境智能判断用户发言是否结束,避免因停顿被抢话。基于阿里云语义断句技术,实现低延迟、高达95%准确率的自然交互。 | AI声学V2.5版本嘈杂人声环境自由双工对话。 AI声学V2.5版本发布,相较2.0大幅降低远场人声干扰,支持在办公、食堂、商场、街道等多种场景下实现流畅双工对话。 | 支持AI电话通话电话、RTC一直的通话体验。 AI语音智能体现支持电话通话,满足企业RTC与电话双需求。一个智能体支持多线路,帮助企业只需维护一套系统,即可实现多线路AI通话。 |
说明 智能语义断句可判断用户是否说完问题后再进行回复。 | 说明 AI对话在嘈杂的环境中依旧流畅,不受影响。 | 说明 AI电话通话可在音乐、拍桌子等环境噪声中流畅进行。 |
基本概念
SessionId | SessionId由开发者自行定义,建议开发者将其设为聊天记录的唯一标识。用法示例:
|
消息对话 | 用户可以通过语音或文本以聊天对话框的形式与智能体进行交互,使双方能够快速分享想法、提出问题或获取信息。 |
语音通话 | 用户可以与智能助手进行语音交互,从而获得及时的信息反馈和服务支持。 |
3D数字人通话 | 利用3D技术模拟虚拟人物形象进行互动,3D数字人不仅能够实现语音交互,还能够通过丰富的肢体动作和面部表情,增强用户体验的真实感与参与度。 |
视觉理解通话 | 融合视频与音频的新型交互方式,它能够实时解析摄像头捕捉的画面,结合用户语音指令,通过多模态交互提供精准反馈,让用户在通话过程中获得更加直观、高效且个性化的智能交互体验,打破传统语音或文字交流的局限 。 |
视频通话 | 结合数字人和视觉理解的优势,让用户在与数字人视频通话时,同时显示数字人和用户的视频画面,数字人能理解用户视频的画面,并作出反馈,增强互动感、真实感。 |
互动消息 | 直播互动消息是用于加强用户之间消息沟通、提升交互体验的服务。 |
实时音视频 ARTC | 用户与AI智能体进行实时音视频通话时,需要借助WebRTC技术来提供保障。阿里云实时音视频ARTC依托全球3200+节点及多年的音视频技术积累,为用户提供高可用、高品质、超低延时的音视频通信服务。更多详情请参见实时音视频简介。 |
实时工作流 | 实时工作流是AI智能体的重要组成部分。它可以通过插件式和拖拽式的方式灵活地编排各个AI组件,例如语音转文字、大模型、语音合成和自研向量数据库等。AI智能体将按照预先定义的工作流程进行运作。 |
AI智能体 | AI智能体是AI实时互动方案中定义的云端高拟真用户,AI智能体可以是由系统预置或者用户自行创建的,并且能够直接与最终用户进行音视频交互。 |
产品优势
全球高可用、低延迟:依托阿里云的实时音视频网络体系,全球3200+节点覆盖和QoS优化,使得用户可以在全球的任何位置与AI智能体流畅的完成音视频通话。
易接入、易调试:您可以将AI组件(如语音转文字、大模型、语音合成、自研向量数据库等)以插件的形式整合到工作流中,从而迅速开展业务,并在此过程中便捷地对整体技术方案进行调试。
高度拟人化:阿里云通过持续迭代和优化智能降噪、智能打断、智能断句等功能,使智能体在互动行为上更接近于人类。
易集成:阿里云为您提供四种集成方式来帮助您搭建AI实时互动系统,以满足不同场景和需求下的应用构建。
实现原理
用户通过终端SDK发起与云端AI智能体的实时音视频通话;
AI智能体接收到用户的音视频输入后,开始运转工作流,并输出AI的响应结果;
AI智能体将响应结果的音视频流推送到ARTC网络,用户可以订阅该音视频流进行播放,从而完成用户与AI智能体的对话。
功能说明
功能 | 说明 |
实时工作流 | 您可以使用白屏化的方式,灵活地编排智能体AI的工作流。
|
智能体电话呼出 | 智能体通过运营商线路直接向用户手机号发起电话呼出,可应用于电话营销、电话通知等场景。电话呼出快速入门 |
自定义智能体形象 | 您可以为所创建的智能体上传一张图片,以便在语音通话场景中展示该智能体的形象。 |
智能体情绪识别 | 智能体能够识别用户当前的情绪,并做出带有情感色彩的回应。 |
欢迎词 | 您可以在控制台中配置欢迎词内容,当用户与AI智能体开始对话时,智能体将播报该欢迎词内容。 |
主动播报 | 业务服务器可以通过OpenAPI的形式,让智能体主动向用户输出音视频内容。 |
实时字幕 | 用户与智能体之间的对话内容可在终端用户界面上实时呈现。 |
智能降噪 | AI智能体将自动过滤对话过程中用户侧产生的嘈杂音。当用户侧有多个人同时说话时,将优先采集音量最大的人声。 |
智能打断 | 在与AI智能体对话时,AI智能体能够有效识别用户在对话中的打断意图。 |
智能断句 | 智能体能够自动识别并分割长句或复杂句,以提升文本的可读性和用户体验。 |
音频逐句回调 | 您可以在控制台进行回调配置将实时音频数据存储到OSS中。 |
对讲机模式 | 用户可以在启动或者通话中设置通话模式为对讲机模式,通过按下按钮与智能体进行交互。 |
ASR热词 | 您可以定义业务相关的热词,以此提升AI智能体在语音识别中的准确率。 |
声纹降噪 | 在多人交谈的场景中,智能体通过识别主讲人的声纹特征,更加精确地捕捉和保留主讲人的语音,同时降低对无关噪音的干扰。 |
真人接管 | 在用户与智能体进行交互时,如遇无法处理的情况或需做出关键决策时,可以选择由真人进行接管以做出决策。 |
优雅下线 | 当业务服务器需要停止智能体时,允许智能体完成当前对话的表达后再进行停止操作,以避免对话被生硬地打断。 |
数据归档 | 将用户与AI智能体的对话转化为文本信息并进行存储,企业可通过API接口调用以消费这部分数据。同时,企业可以将用户与AI智能体通话的音视频数据存储至对象存储服务(OSS)或视频点播(VOD)平台。 |
计费说明
详细计费内容,请前往AI实时互动计费说明。
常见问题
联系我们
更多产品咨询问题或使用支持,欢迎通过钉钉搜索群号106730016696,加入群聊联系我们。