音视频通话快速入门

更新时间:2025-04-29 06:32:21

本文将为您介绍如何快速创建音视频智能体。

服务开通

为了使用阿里云AI实时互动服务,您需要满足以下条件:

说明
  • 您也可以通过购买功能体验月包的方式,来体验AI实时互动服务。体验包购买,请前往功能体验月包

  • 企业订阅服务中的订阅金额可用于抵扣后续功能使用所产生的费用。不同的订阅版本,所享受的抵扣折扣不同,具体请参考企业订阅服务

第一步 创建音视频工作流

  1. 登录智能媒体服务控制台,单击创建工作流模板

  2. 按需选择语音通话数字人通话或者视觉理解通话,并配置工作流节点。image

    STT 语音转文字
    LLM 大语言模型
    TTS 文字转语音
    数字人
    视频抽帧
    MLLM多模态大模型

    该节点负责将语音输入转换成可读的文字格式,支持多语种识别。同时,阿里云也为您提供了系统预置模型、第三方插件(讯飞)以及自研接入三种接入方案。

    image

    • 系统预置:系统预置模型支持您选择语言模型、设置静默时间以及配置自定义热词。

      • 语言模型:您可以根据您的业务场景,选择不同的语言模型。

      • 静默时间:通过配置静默时间,控制在没有声音输入的情况下,STT将文本内容传递给大模型的等待时间。

      • 配置自定义热词:通过配置热词可以提高业务领域词汇识别效果,具体配置详情,请参见语音识别热词

    • 三方插件:当前支持在STT节点中配置讯飞三方插件。详情请参见实时语音转写

    • 自研接入:阿里云支持您接入自研的语音转文本模型,接入详情,请参见STT标准接口

      说明

      如需接入自研语音转文字模型,相关流程涉及加白操作,详细信息烦请进群了解咨询

    基于STT转换得到的文字输入,LLM可以使用大型预训练语言模型来理解和生成自然语言文本。

    image

    目前AI实时互动支持您接入通义千问(系统预置)、阿里云百炼平台、阿里通义星辰以及自研大模型。

    阿里云百炼平台
    通义星尘
    自研模型

    阿里云的大模型服务平台阿里云百炼是一站式的大模型开发及应用构建平台。选择对接阿里云百炼平台提供的语言模型和服务时,您可以选择对接阿里云百炼模型中心应用中心

    • 模型中心:需要先在阿里云百炼大模型服务平台进行模型部署,完成后,获取ModelId和模型Key。

      imageimage

    • 应用中心:需要先在阿里云百炼大模型服务平台创建智能体应用,完成后,获取AppId。

      image

      单击调用,进入智能体应用界面,单击右上角API KEY,获取API-KEY。image

    说明

    通义星尘产品提供定制深度个性化智能体的能力,能够快速创造一个拥有自己独特的人设、风格的智能体,结合数字人语音实时交互能力,可以在指定的不同的场景中进行丰富的互动。

    • ModelId:目前通义星辰有xingchen-litexingchen-basexingchen-plusxingchen-plus-v2xingchen-max五种模型供您选择。

    • API-KEY:请前往星辰控制台创建API KEY并获取。

      image

    AI实时互动也支持接入您自研的大模型,您可以按照OpenAI规范接入您的大模型。

    OpenAI规范:如果您选择按照OpenAI规范接入,您需要填入以下参数

    名称

    描述

    示例值

    ModelId

    OpenAI标准model字段,表示模型名称

    abc

    API-KEY

    OpenAI标准api_key字段,表示API鉴权信息

    AUJH-pfnTNMPBm6iWXcJAcWsrscb5KYaLitQhHBLKrI

    目标模型HTTPS地址

    OpenAI标准base_url字段,表示目标服务请求地址

    http://www.abc.com

    更多自研LLM接入详情,请参见LLM标准接口

    该节点负责将处理后的文本转换回语音格式,以便用户听到系统的响应。

    image

    • 您可以选择适合您应用场景的文字转语音模型,包括:系统置模板自研模板三方插件阿里云百炼

      • 系统预置模板:选择预置模板时,您需要配置语音音色,各类型智能语音效果示例请参见智能语音效果示例

      • 自研模板:您可以通过规范协议将您的自研大模型加入到工作流当中。详情请参见TTS标准接口

      • 三方插件:当前仅支持选择MiniMax语音模型,该模型可以满足复杂生产力以及多语言人设对话场景需求,最大支持245k上下文窗口。具体详情,请参见MiniMax语音模型

      • 阿里云百炼:如果您的业务需要应用自定义音色场景,建议您接入阿里云百炼应用平台。接入详情,请参见基于阿里云百炼CosyVoice创建自定义音色

    • TTS节点,您也可以对LLM输入的内容进行过滤。

      image

    该节点负责生成与处理后的文本和音频相对应的动作、表情和口型同步的数字人视频流。

    image

    当前支持在3D数字人节点中配置相芯以和通义星辰数字人:

    • 相芯:您需要咨询相芯科技客服,开通相芯科技3D数字人服务,获取AppIdAppKey以及AvatarId

    • 通义星尘:使用通义星尘数字人,请前往通义星尘控制台获取ModelIdAppKey以及AvatarId

      说明

      如需集成星尘数字人,相关流程涉及加白操作,详细信息烦请进群了解咨询

    更多配置详情,请参见数字人集成

    该节点负责从视频中抽取单帧或多帧的图片。

    image

    基于前置节点对视频的处理,MLLM可以对输入的图片与文字进行理解,生成自然语言文本。

    image

    您可以选择适合您应用场景的语言模型:使用系统内置的大语言模型(通义千问)或者按照OpenAI规范或阿里规范来接入自研多模态大语言模型。自研接入,请参考MLLM标准接口

  3. 单击保存,完成音视频工作流创建。

第二步 创建音视频智能体

  1. 登录智能媒体服务控制台,单击创建智能体

  2. 配置基本信息,绑定音视频工作流

    1. 绑定具体的音视频工作流,AI智能体依照该工作流进行运行。

      image

    2. 在配置智能体时,选择当前账号下已创建的实时音视频ARTC应用,若登录账号下还未创建实时音视频ARTC应用,您也可以通过选择系统自动创建。实时音视频更多内容,请参见实时音视频简介

      image

      说明

      AI实时互动依赖于ARTC应用,ARTC应用作为通信桥梁,确保对话功能的正常运作。

    3. 当您绑定的工作流类型为语音通话时,可以在高级功能配置中上传自定义形象,以便在语音通话场景中展示该形象。

      image

  3. 单击提交,完成音视频智能体创建。

第三步 体验智能体

消息对话智能体创建完成后,您可以通过扫描体验二维码来进行智能体的体验。

说明

为便于您体验AI实时互动能力,阿里云为您提供每日20通的通话额度。

  1. 控制台生成Demo体验二维码。

    image

  2. 请使用钉钉、微信或浏览器扫描二维码,或将体验地址复制到浏览器中,以体验H5版本的Demo。

    image

集成音视频智能体

如何将音视频智能体集成到您的项目中,请参考音视频通话智能体集成

  • 本页导读
  • 服务开通
  • 第一步 创建音视频工作流
  • 第二步 创建音视频智能体
  • 第三步 体验智能体
  • 集成音视频智能体
AI助理

点击开启售前

在线咨询服务

你好,我是AI助理

可以解答问题、推荐解决方案等