AI实时互动

AI实时互动能够实现AI与用户之间的高效音视频互动,本文档将从应用能力和产品优势等多个方面来介绍AI实时互动。

产品简介

AI实时互动是一种旨在帮助企业快速构建AI与用户之间的音视频通话应用的解决方案。用户只需通过白屏化的界面操作,即可在10分钟内构建一个专属的AI智能体,并通过视频云通讯网络与终端用户进行实时交互。该方案适用于网络客服、AI助理、AI伴侣、撮合助手、虚拟老师等多种应用场景,使用户能够在短时间内快速构建AI实时互动能力。

应用能力

在AI实时互动功能中,AI智能体被定义为云端高拟真用户,用于实现与用户的音视频交互。为了满足不同的交互需求,您需要为智能体配置相应的工作流。阿里云为您提供了三种工作流类型,以满足您的业务需求。

语音通话

用户通过语音与智能助手交流对话,获取即时的信息反馈和服务。

image

数字人通话

通过视频方式与数字人对话,为用户提供更加真实的互动体验。

ef542825f9044168a02f525acf40a7e3

视觉理解通话

通过视频方式与智能体互动,智能体将结合用户的语音和摄像头画面来提供反馈。

lQDPKHqhPvYB3EvNBP7NAlKwv7KuxJc1T5kG888eUQ_mAA_594_1278

创建语音通话工作流模板为例:

您只需要配置以下3个节点,就能完成语音通话工作流的创建。

image

您可以前往Demo体验,以全面了解上述能力。

应用场景

知识问答

知识问答系统可以作为在线客服和智能助手,为用户提供快速且准确的答案与解决方案。通过对大量问题及答案的学习和理解,系统能够根据用户提出的问题进行有效回答,从而提升用户体验和服务质量。

产品优势

  • 全球高可用、低延迟:依托阿里云的实时音视频网络体系,全球3200+节点覆盖和QoS优化,使得用户可以在全球的任何位置与AI智能体流畅的完成音视频通话。

  • 易接入、易调试:您可以将AI组件(如语音转文字、大模型、语音合成、自研向量数据库等)以插件的形式整合到工作流中,从而迅速开展业务,并在此过程中便捷地对整体技术方案进行调试。

  • 高度拟人化:阿里云通过持续迭代和优化智能降噪、智能打断、智能断句等功能,使智能体在互动行为上更接近于人类。

  • 易集成:阿里云为您提供四种集成方式来帮助您搭建AI实时互动系统,以满足不同场景和需求下的应用构建。具体详情,请参考集成方案概览

实现原理

image
  1. 用户通过终端SDK发起与云端AI智能体的实时音视频通话;

  2. AI智能体接收到用户的音视频输入后,开始运转工作流,并输出AI的响应结果;

  3. AI智能体将响应结果的音视频流推送到ARTC网络,用户可以订阅该音视频流进行播放,从而完成用户与AI智能体的对话。

功能说明

功能

说明

实时通话(ARTC)

阿里云实时音视频方案,依托该方案用户可以与AI智能体进行全球范围的高可靠、低延时通话。

实时工作流

您可以使用白屏化的方式,灵活地编排智能体AI的工作流。

  • 语音转文字:

    • 预置阿里云通义产品能力。

    • 支持将讯飞的语音转文字能力作为第三方插件进行集成。

  • 语音合成(文字转语音):

    • 预置阿里云通义的产品能力。

    • 采用标准协议与您自主研发的语音合成模块进行对接。

    • 支持将MiniMax的语音能力作为第三方插件进行集成。

  • 文生文大语言模型:

    • 预置阿里云通义的产品能力。

    • 选择阿里云百炼平台上模型中心、应用中心的AI模型。

    • 按照OpenAI规范或阿里规范来接入自研的大语言模型。

  • 数字人

    • 支持将相芯数字人能力作为第三方插件进行集成。

  • 视频抽帧

  • 多模态语言大模型

    • 预置阿里云通义产品能力。

    • 按照OpenAI规范来接入自研的多模态大语言模型。

自定义智能体形象

您可以为所创建的智能体上传一张图片,以便在语音通话场景中展示该智能体的形象。

欢迎词

您可以在控制台中配置欢迎词内容,当用户与AI智能体开始对话时,智能体将播报该欢迎词内容。

主动播报

业务服务器可以通过OpenAPI的形式,让智能体主动向用户输出音视频内容。

实时字幕

用户与智能体之间的对话内容可在终端用户界面上实时呈现。

智能降噪

AI智能体将自动过滤对话过程中用户侧产生的嘈杂音。当用户侧有多个人同时说话时,将优先采集音量最大的人声。

智能打断

在与AI智能体对话时,AI智能体能够有效识别用户在对话中的打断意图。

智能断句

智能体能够自动识别并分割长句或复杂句,以提升文本的可读性和用户体验。

对讲机模式

用户可以在启动或者通话中设置通话模式为对讲机模式,通过按下按钮与智能体进行交互。

ASR热词

您可以定义业务相关的热词,以此提升AI智能体在语音识别中的准确率。

声纹降噪

在多人交谈的场景中,智能体通过识别主讲人的声纹特征,更加精确地捕捉和保留主讲人的语音,同时降低对无关噪音的干扰。

真人接管

在用户与智能体进行交互时,如遇无法处理的情况或需做出关键决策时,可以选择由真人进行接管以做出决策。

优雅下线

当业务服务器需要停止智能体时,允许智能体完成当前对话的表达后再进行停止操作,以避免对话被生硬地打断。

数据归档

将用户与AI智能体的对话转化为文本信息并进行存储,企业可通过API接口调用以消费这部分数据。同时,企业可以将用户与AI智能体通话的音视频数据存储至对象存储服务(OSS)或视频点播(VOD)平台。

计费说明

详细计费内容,请前往AI实时互动计费说明

常见问题

联系我们

更多产品咨询问题或使用支持,欢迎通过钉钉扫描下方二维码,加入群聊联系我们。02e499c493677805c1e0601c5fbc9273