首页 AI 语音通话

AI 语音通话

更新时间: 2025-01-13 19:10:13

手动部署

15

https://www.aliyun.com/solution/tech-solution/real-time-interaction

方案概览

AI 智能体实时语音互动是一个端到端的解决方案,旨在为用户与AI智能体之间提供实时音频交互。用户通过终端 SDK 发起与云端 AI 智能体的音频通话请求,AI 智能体接收到用户的音频输入后,依据预定义的工作流进行处理,生成相应的音频响应,并通过 ARTC 网络将响应结果推送给用户。用户可以订阅该音频流进行播放,从而实现与 AI 智能体的对话。

本技术解决方案将介绍如何快速在阿里云上构建 AI 智能体实时语音互动能力。

方案架构

AI 智能体是本方案的核心组件之一,能够在云端模拟高度拟真的用户交互。用户可以根据需求自行创建智能体。通过灵活的插件式和拖拽式方式,用户可以编排各个 AI 组件,如语音转文字、大语言模型、语音合成和自研向量数据库等,从而实现 AI 智能体的实时工作流。实时音视频通信技术(ARTC)为用户与AI智能体之间的音频通话提供了高可用、高品质、超低延时的保障。

方案架构如下图所示:

AI智能体实时语音互动备份@2x

本方案的技术架构包括以下基础设施和云服务:

  • 函数计算 FC :用于部署应用程序。

  • 实时音视频 ARTC :用来创建实时音频应用,提供AI智能体和用户的实时音频通话能力。

  • 智能媒体服务 IMS :用来创建实时工作流和 AI 智能体。

准备账号

  1. 如果您还没有阿里云账号,请访问阿里云账号注册页面,根据页面提示完成注册。阿里云账号是您使用云资源的付费实体,因此是部署方案的必要前提。

  2. 为阿里云账号充值:AI 实时互动支持每天20通免费通话,实时音视频 ARTC 的计费标准为0.006元/分钟(双向收费)。此外,函数计算 FC 与百炼服务提供了一定的免费试用额度。若您已使用完这些免费额度,体验本方案的预计成本将不会超过1元。

  3. 百炼提供的新人免费额度可以完全覆盖本教程所需资源消耗。额度消耗完后按 token 计费,相比自行部署大模型可以显著降低初期投入成本。

  4. 函数计算提供的试用额度(点此领取)可以完全覆盖本教程所需资源消耗。额度消耗完后按量计费,对于本教程所涉及的Web服务,只在有访问的情况下才会产生费用。

创建实时音视频通信应用

1

实时音视频 ARTC 是智能体和用户之间建立起实时音频通信的基础,实现 AI 实时互动需要准备一个 ARTC 应用,参照以下步骤开通并创建 ARTC 应用。

  1. 开通视频直播:计费方式选择按使用流量计费,点击右下角立即开通image

  2. 视频云直播控制台左侧导航栏单击直播+ > 实时音视频 > 应用管理

  3. 单击创建应用image

  4. 填写自定义的实例名称,勾选服务协议后,点击立即购买image

  5. 提示开通成功后,刷新应用管理页面,即可查看新建的实时音视频应用。image

创建AI智能体

2

1.编排实时工作流

实时工作流是一种预先定义的流程模板,用于自动化处理 ARTC 音频流。支持创建语音通话并且预设了多种功能节点,包括语音转文字 (STT)、文字转语音 (TTS)、文生文大语言模型(LLM)等。平台提供了可直接选用的预置模板,同时,也支持根据需求创建自定义模板,让智能体自动按照预设好的流程工作。

  1. 登录智能媒体服务控制台,点击立即开通按钮。image

  2. 在服务开通页面,勾选服务协议,点击立即开通按钮。image

  3. 点击服务授权按钮。image

  4. 在服务授权页面,点击同意授权按钮。image

  5. 登录AI实时互动-工作流管理单击创建工作流模板。image

    说明

    AI 实时互动目前在国内可选地域包括杭州、上海、北京和深圳。请您根据自身的实际需求,先在导航栏中选择相应的地域,然后再继续进行创建操作。image

  6. 配置基础信息可以自定义工作流名称,便于后续创建与管理智能体时选择对应的工作流模板。image

  7. 配置工作流模板工作流类型选择语音通话工作流已预先配置好节点,并不支持增删操作,但可以自由编辑节点内容。

  8. 依次编辑 STT 语音转文字节点、LLM 大语言模型节点、TTS 文字转语音节点的节点名称。以 SST 语音转文字节点为例,点击编辑图标。image

  9. 在弹出的节点配置页面,输入节点名称,修改完成后点击保存

    image

  10. 工作流节点全部修改完成后,点击保存image

2.创建智能体

AI 智能体是在 AI 实时互动解决方案中定义的高仿真用户,用户可以根据自身需求创建智能体,并将其集成到自己的应用中,使其能够按照既定工作流程在实时音频环境中运行,从而实现实时音频交互功能。

  1. 登录 AI实时互动-智能体管理,单击创建智能体image

  2. 配置基础信息:可以自定义智能体名称。image

  3. 工作流配置:绑定之前创建的实时工作流 ID 和实时音视频 ARTC 应用,可以依据需求定制智能体的开场问候语,完成后点击提交。image

部署应用

1

  1. 请点击应用模板链接打开我们提供的函数计算应用模板,填写配置。image

    项目

    描述

    示例值

    部署类型

    部署方式

    直接部署

    应用名称

    自动生成

    默认

    角色名称

    模板所需的角色(如果需要授权,请按照控制台提示进行授权)。

    默认

    实时音视频AppId

    实时音视频应用 ID

    打开视频云直播控制台,点击左侧导航栏直播+ > 实时音视频(原互动直播) > 应用管理,单击目标应用操作列中的管理。在基本信息页面可以看到应用 ID 和 AppKey

    实时音视频AppKey

    实时音视频AppKey

    语音通话智能体的AgentId

    智能体ID

    打开智能体管理,找到并复制当前智能体 ID。

    RAM角色ARN

    函数计算访问相应服务时使用的函数角色。

    如果提示您当前选择的应用还需要额外一些权限,请单击前往授权

    地域

    当前应用支持杭州、深圳、北京和上海四个地域。注意选择的地域与之前创建的智能体所在地域必须保持一致。

    默认 华东1(杭州)

  2. 其他配置项保持默认,点击页面左下角的创建并部署默认环境,等待项目部署完成即可。image

  3. 应用部署完成后,可以在应用的环境详情中找到示例网站的访问域名,点击即可查看,确认示例网站已经部署成功。image

  4. 当您点击拨打按钮后,系统会提示使用HTTPS访问页面。请根据提示点击所提供的链接,以完成页面跳转。image

  5. 浏览器会提示安全证书警告或错误,可以选择点击高级选项,然后点击继续前往以访问该网站。imageimage

    说明

    应用程序需要使用麦克风,浏览器要求必须通过 HTTPS 进行连接。当前应用程序部署使用的域名是由 CNCF SandBox 项目下的 Serverless Devs 社区提供的临时域名,尚未绑定有效的 SSL/TLS 证书,因此当用户访问时,浏览器会提示连接不安全。建议在生产环境中部署该应用程序时,绑定一个有效的 SSL/TLS 证书,以确保通过 HTTPS 协议实现安全连接。

应用体验

10

一、实时语音对话

  1. 单击拨打按钮,即可开始与智能体对话。image

  2. 浏览器弹窗请求使用麦克风,点击访问该网站时允许image

  3. 用户可以与智能体进行实时语音对话,页面上会同步展示当前对话的文字信息,以便用户查阅对话内容。image

  4. 单击右上角的image,可以选择自然对话模式或者对讲机模式,以及开启/关闭智能打断image

二、如何在已有网站中快速集成 AI 语音助手

  1. 已经拥有网站和域名,并且部署了 SSL 证书,可以在需要集成AI语音助手的网页中通过嵌入一段 JavaScript 代码来实现相应的功能。

  2. 请复制并粘贴以下代码段到您的网页代码中相应的位置。

       <!-- 创建一个用于渲染 ARTC AI Call UI 的容器 -->
        <div id="root"></div>
    
        <!-- 引入 ARTC AI Call UI 的 JavaScript 文件 -->
        <script src="https://g.alicdn.com/apsara-media-aui/amaui-web-aicall/1.6.2/aicall-ui.js"></script>
    
        <!-- 初始化并渲染 ARTC AI Call UI -->
        <script>
          new ARTCAICallUI({
            userId: 'id',                          
            root: document.getElementById('root'),  
            appServer: 'https://<url>',             
            agentType: 0,                       
            userToken: 'token'                    
          }).render();
        </script>

    参数说明

    1. userId :字符串类型,按照业务需要传入,不能为空。

    2. root :页面渲染到的节点,画面完整填充整个区域。

    3. appServer :AI实时语音互动应用服务地址,当前即为函数计算 FC 中的访问域名。

    4. agentType :通话类型界面 0:语音通话,1:数字人通话,2:视频理解通话。

    5. userToken :用于应用鉴权,如果应用场景不需要鉴权,可以不传递此参数,但如果传递,则其值不能为空字符串。

三、如何在移动端快速集成 AI 语音助手

  1. 当前 DEMO 提供了移动端扫码体验,支持使用微信/钉钉扫码,或复制链接后在手机浏览器中打开。image

  2. 在移动端浏览器打开后,点击显示详细信息image

  3. 在展开的详细信息中,点击访问此网站。image

  4. 接下来,即可在移动端体验 AI 实时语音对话。mmexport1734572394478

四、个性化定制智能体人设

  1. 可以修改现有的工作流模板,预设不同的场景和智能体人设,从而实现个性化定制,优化体验。

  2. 实时工作流管理中编辑当前的工作流模板,修改LLM大语言模型节点的配置,点击工作流页面右上角的编辑按钮,再点击 LLM 大语言模型节点编辑按钮。image

  3. 修改 LLM 大语言模型节点的系统人设。image

  4. 挂断后重新接通,可以发现智能体的人设已经改变。image

五、接入客户私有知识库

如果希望智能体增强某些领域的专业知识,可以通过百炼平台创建知识库和 RAG 应用,并进行配置接入。具体步骤如下

  1. 登录百炼控制台,点击左侧导航栏中的数据管理,然后点击页面右上角的导入数据image

  2. 选择本地上传的方式,导入本地文件,可以使用我们提供的“百炼”手机详细参数.docximage

  3. 在左侧导航栏中,选择数据应用>知识索引。点击创建知识库image

    1. 知识库信息:输入知识库名称,其他保持默认配置,点击下一步image

    2. 选择数据:选择之前上传的文件,点击下一步image

    3. 数据处理保持默认配置,点击导入完成,系统自动进行文档解析。image

  4. 在左侧导航栏中,选择我的应用。单击新增应用>智能体应用>直接创建,进入创建应用页面image

    1. 单击image选择模型,例如通义千问-Max 。

    2. 打开知识库检索增强开关,单击配置知识库

    3. 选择知识库,即之前创建的知识索引。

    4. 单击发布按钮。image

  5. 实时工作流管理中编辑当前的工作流模板,修改 LLM 大语言模型节点的配置,点击工作流页面右上角的编辑按钮,再点击 LLM 大语言模型节点编辑按钮。image

  6. 在弹出的配置弹窗中,模型选择这一项选择对接阿里百炼平台百炼类型选择应用中心。image

  7. 打开百炼控制台点击左侧导航栏我的应用,找到目标应用并复制应用 ID ,填写到 AppId 这一栏。image

  8. 鼠标悬停于页面右上角的image图标上,在下拉菜单中单击API-KEY

    image

  9. 在左侧导航栏,选择全部API-KEY我的API-KEY,然后创建或查看API Key。

    说明
    • 仅主账号拥有查看全部API-KEY的权限。主账号可以获取所有子账号的API-KEY,子账号仅能获取自己的API-KEY。

    • 请不要将API Key以任何方式公开,避免因未经授权的使用造成安全风险或资金损失。

  10. 当调用子业务空间的应用时,需要传递业务空间标识,如果是默认业务空间可以不填写。image

  11. 挂断后重新接通,提问知识库中的内容,智能体可以给出准确的回答。image

完成及清理

1

清理资源

在本方案中,创建的云服务资源在体验完毕后,可以参考以下规则处理对应产品,避免继续产生费用:

  1. 删除函数计算应用:

    登录函数计算控制台,在左侧导航栏,单击应用。找到目标应用,单击右侧操作列的删除应用

  2. 删除智能体:

    登录智能媒体服务控制台,在智能生产制作 > AI 实时互动 > 智能体管理页面,找到智能体并单击删除

  3. 删除实时工作流模板:

    登录智能媒体服务控制台,在智能生产制作 > AI 实时互动>工作流管理页面,找到工作流模板并单击删除

  4. 删除 ARTC 应用:

    登录视频直播控制台,在直播+ >实时音视频 > 应用管理页面,找到 ARTC 应用并单击删除

  5. 删除百炼应用和数据:

    1. 登录百炼控制台,在我的应用中,找到应用并单击右下角更多,在下拉列表中点击删除应用image

    2. 数据应用 > 知识索引页面,找到知识库并点击操作栏中的删除

    3. 数据管理页面,找到上传的文档并点击操作栏中的删除