本文档将介绍AI实时互动的应用能力,以及如何将其集成到您的工程中。
百炼✖AI实时互动
发布说明
自动创建智能体、工作流以及实时音视频应用:通过百炼发布语音互动和视频互动应用,您将自动创建AI智能体、实时工作流以及ARTC实时音视频应用。您可以在智能媒体服务控制台中查看相应的智能体和工作流。如需查看ARTC实时音视频应用详情,请前往视频直播控制台。
百炼创建的创建智能体和工作流不允许配置:由百炼平台发布至AI实时互动所自动生成的智能体和工作流不允许进行修改或删除。
请将控制台左上角的地区(Region)切换至华北2(北京)
,以便查看您在百炼创建的智能体及其工作流。
AI实时互动概述
AI实时互动主要由以下三个部分组成:
AI智能体:AI智能体是定义于AI实时互动中的云端高拟真用户,旨在与最终用户完成音视频交互。
实时工作流:实时工作流是AI智能体的重要组成部分,您可以对工作流进行编排,阿里云支持接入您自研的LLM、TTS等节点。
实时音视频ARTC:ARTC实时音视频作为用户与智能体之间的沟通桥梁,提供高可用性、高品质以及超低延迟的音视频通信服务。
AI实时互动为您提供了三种应用能力:语音通话、数字人通话以及视觉理解通话。您可以通过集成AICallKit SDK的方式,快速将AI实时互动应用集成到您的工程中。更多AI实时互动内容,请参见AI实时互动。
语音通话 用户通过语音与智能助手交流对话,获取即时的信息反馈和服务。 | 数字人通话 通过视频方式与数字人对话,为用户提供更加真实的互动体验。 | 视觉理解通话 通过视频方式与智能体互动,智能体将结合用户的语音和摄像头画面来提供反馈。 |
AICallKit SDK能力概览
阿里云基于AICallKit SDK的集成,提供了包含用户界面(UI)和不包含用户界面(UI)两种方案。如何集成AICallKit SDK,请参见基于AICallKit SDK集成方案。
功能项 | 功能描述 | iOS & Android | Web |
语音通话 | 用户通过语音与智能体交流对话,获取即时的信息反馈和服务。 | ✔️ | ✔️ |
数字人通话 | 通过视频方式与数字人对话,为用户提供更加真实的互动体验。 | ✔️ | ✔️ |
视觉理解通话 | 通过视频方式与智能体互动,智能体将结合用户的语音和摄像头画面来提供反馈。 | ✔️ | ✔️ |
智能体状态 | 为您提供AI智能体状态的实时信息,智能体状态包括:聆听中、思考中 、讲话中。 | ✔️ | ✔️ |
实时字幕 | AI智能体和用户的对话信息将会被实时转换成文字,并由客户端进行展示。 | ✔️ | ✔️ |
打断功能 | 您可以向正在说话的智能体发送一个打断指令,智能体收到指令后,停止当前问题的回答。 | ✔️ | ✔️ |
智能打断 | AI智能体智能识别用户的对话打断意图。 | ✔️ | ✔️ |
音色设置 | 您可以对智能体输出的音色进行配置,目前支持的音色详情列表,请参见智能语音效果示例、百炼智能语音效果示例。 | ✔️ | ✔️ |
对讲机模式 | 用户可以在启动或者通话中设置通话模式为对讲机模式,通过按下按钮与智能体进行交互。 | ✔️ | ✔️ |
声纹识别 | 在多人交谈的场景中,智能体通过识别主讲人的声纹特征,更加精确地捕捉和保留主讲人的语音,同时降低对无关噪音的干扰。 | ✔️ | ❌ |
自定义消息 | 您可以在RTC自定义消息通道中发送您的定制信息。 | ✔️ | ✔️ |
本地设备管理 | 包括通话过程中关闭扬声器、静音麦克风等功能。 | ✔️ | ✔️ |
智能体回调 | 您可以通过智能体回调接口来获取主讲人音量、网络等状态。 | ✔️ | ✔️ |
关于计费
如果您在百炼平台上创建智能体应用发布到AI实时互动,则产生以下相关费用:
ARTC实时音视频服务费(AI实时互动)
AI智能体平台服务费(AI实时互动)
百炼LLM模型服务费(百炼)
百炼TTS服务费(百炼)
AI实时互动计费详情,请参见AI实时互动计费规则。百炼LLM模型服务费详情,请参见文本生成-通义千问,百炼TTS服务费详情,请参见功能特性对比。