百炼✖AI实时互动最佳实践

本文档将介绍AI实时互动的应用能力,以及如何将其集成到您的工程中。

百炼✖AI实时互动

百炼发布AI实时互动智能体

  1. 创建智能体应用:访问百炼控制台我的应用,创建智能体应用并测试。详细内容,请参见步骤一:创建智能体应用

  2. 发布智能体应用:百炼可以将智能体应用直接发布到AI实时互动应用中。详细内容,请参见用法说明

发布说明

  • 自动创建智能体、工作流以及实时音视频应用:通过百炼发布语音互动和视频互动应用,您将自动创建AI智能体、实时工作流以及ARTC实时音视频应用。您可以在智能媒体服务控制台中查看相应的智能体和工作流。如需查看ARTC实时音视频应用详情,请前往视频直播控制台

  • 百炼创建的创建智能体和工作流不允许配置:由百炼平台发布至AI实时互动所自动生成的智能体和工作流不允许进行修改或删除。

说明

请将控制台左上角的地区(Region)切换至华北2(北京),以便查看您在百炼创建的智能体及其工作流。

AI实时互动概述

AI实时互动主要由以下三个部分组成:

AI智能体:AI智能体是定义于AI实时互动中的云端高拟真用户,旨在与最终用户完成音视频交互。

实时工作流:实时工作流是AI智能体的重要组成部分,您可以对工作流进行编排,阿里云支持接入您自研的LLM、TTS等节点。

实时音视频ARTC:ARTC实时音视频作为用户与智能体之间的沟通桥梁,提供高可用性、高品质以及超低延迟的音视频通信服务。

AI实时互动为您提供了三种应用能力:语音通话数字人通话以及视觉理解通话。您可以通过集成AICallKit SDK的方式,快速将AI实时互动应用集成到您的工程中。更多AI实时互动内容,请参见AI实时互动

语音通话

用户通过语音与智能助手交流对话,获取即时的信息反馈和服务。

image

数字人通话

通过视频方式与数字人对话,为用户提供更加真实的互动体验。

ef542825f9044168a02f525acf40a7e3

视觉理解通话

通过视频方式与智能体互动,智能体将结合用户的语音和摄像头画面来提供反馈。

lQDPKHqhPvYB3EvNBP7NAlKwv7KuxJc1T5kG888eUQ_mAA_594_1278

AICallKit SDK能力概览

阿里云基于AICallKit SDK的集成,提供了包含用户界面(UI)和不包含用户界面(UI)两种方案。如何集成AICallKit SDK,请参见基于AICallKit SDK集成方案

功能项

功能描述

iOS & Android

Web

语音通话

用户通过语音与智能体交流对话,获取即时的信息反馈和服务。

✔️

✔️

数字人通话

通过视频方式与数字人对话,为用户提供更加真实的互动体验。

✔️

✔️

视觉理解通话

通过视频方式与智能体互动,智能体将结合用户的语音和摄像头画面来提供反馈。

✔️

✔️

智能体状态

为您提供AI智能体状态的实时信息,智能体状态包括:聆听中、思考中 、讲话中。

✔️

✔️

实时字幕

AI智能体和用户的对话信息将会被实时转换成文字,并由客户端进行展示。

✔️

✔️

打断功能

您可以向正在说话的智能体发送一个打断指令,智能体收到指令后,停止当前问题的回答。

✔️

✔️

智能打断

AI智能体智能识别用户的对话打断意图。

✔️

✔️

音色设置

您可以对智能体输出的音色进行配置,目前支持的音色详情列表,请参见智能语音效果示例百炼智能语音效果示例

✔️

✔️

对讲机模式

用户可以在启动或者通话中设置通话模式为对讲机模式,通过按下按钮与智能体进行交互。

✔️

✔️

声纹识别

在多人交谈的场景中,智能体通过识别主讲人的声纹特征,更加精确地捕捉和保留主讲人的语音,同时降低对无关噪音的干扰。

✔️

自定义消息

您可以在RTC自定义消息通道中发送您的定制信息。

✔️

✔️

本地设备管理

包括通话过程中关闭扬声器、静音麦克风等功能。

✔️

✔️

智能体回调

您可以通过智能体回调接口来获取主讲人音量、网络等状态。

✔️

✔️

关于计费

如果您在百炼平台上创建智能体应用发布到AI实时互动,则产生以下相关费用:

  • ARTC实时音视频服务费(AI实时互动)

  • AI智能体平台服务费(AI实时互动)

  • 百炼LLM模型服务费(百炼)

  • 百炼TTS服务费(百炼)

AI实时互动计费详情,请参见AI实时互动计费规则。百炼LLM模型服务费详情,请参见文本生成-通义千问,百炼TTS服务费详情,请参见功能特性对比