创建与管理工作流模板

实时工作流是一种预先定义的流程模板,用于自动化处理RTC音视频流。支持创建语音通话和3D数字人通话等多种场景,并且预设了多种功能节点,包括语音转文字 (STT)、文字转语音 (TTS)、文生文大语言模型(LLM)以及3D数字人等。平台提供了可直接选用的预置模板,让智能体自动按照预设好的流程工作。通过阅读本文,您可以了解如何配置实时工作流模板。

使用限制

  • 系统内置模板,所有账户均可使用。

  • 自定义模板,仅允许创建者独自使用。

  • 系统预置的模板不可删除。

工作流类型概述

您可以根据具体需求选择创建语言通话、3D数字人通话和视觉理解通话类型的工作流模板。每个工作流已预先配置好节点,无需您手动添加或删除节点,使智能体自动按照预设好的流程工作。

工作流类型

适用场景

处理流程

语音通话

适用于一对一或群组语音交流的场景。用户可以通过语音直接与智能助手进行交互,从而获得及时的信息反馈和服务支持。

  1. 开始(RTC输出):拉取用户的RTC音视频流。

  2. STT语音转文字:通过STT技术将音频流转换为文本。

  3. LLM大语言模型:将转换后的文本输入到大语言模型中进行处理。

  4. TTS文字转语音:通过TTS技术将处理后的文本重新转换为音频流。

  5. 结束(RTC推流):将转换后的音视频流通过RTC输出。

3D数字人通话

利用3D技术模拟虚拟人物形象进行互动,3D数字人不仅能够实现语音交互,还能够通过丰富的肢体动作和面部表情,增强用户体验的真实感与参与度。

  1. 开始(RTC输出):拉取用户的RTC音视频流。

  2. STT语音转文字:通过STT技术将音频流转换为文本。

  3. LLM大语言模型:将转换后的文本输入到大语言模型中进行处理。

  4. TTS文字转语音:通过TTS技术将处理后的文本重新转换为音频流。

  5. 3D数字人:与相芯的数字人系统进行集成,生成与处理后的文本和音频相对应的动作、表情和口型同步的3D数字人视频流。

  6. 结束(RTC推流):将处理后的音频和3D数字人的视频流整合并通过RTC输出。

视觉理解通话

通过视频方式与智能体进行直接交互,智能体通过分析视频内容进行识别与解释。涵盖了物体检测与识别、场景理解与分割、语义分析以及活动与行为识别等方面。智能体不仅能够“看到”图像中的对象,还能够理解它们之间的关系及其所处的上下文。

  1. 开始(RTC输出):拉取用户的RTC音视频流。

  2. 视频处理:

    1. 视频抽帧:从视频中抽取单帧或多帧图片。

    2. STT语音转文字:通过STT技术将音频流转换为文本。

  3. MLLM多模态大模型:将处理过后的视频内容输入到多模态大模型中进行处理。

  4. TTS文字转语音:通过TTS技术将处理后的文本重新转换为音频流。

  5. 结束(RTC推流):将处理后的音频和3D数字人的视频流整合并通过RTC输出。

通过控制台创建实时工作流模板

  1. 进入智能媒体服务控制台,创建工作流模板。

    image

  2. 配置基础信息。

    您可以自定义工作流名称,便于后续创建智能体时选择对应的工作流模板。

    image

  3. 选择工作流类型,配置工作流节点。

    您可以根据具体需求选择合适的工作流类型。每个工作流已预先配置好节点,并不支持增删操作,但您可以自由编辑节点内容。工作流类型介绍请参见工作流类型概述

    STT 语音转文字

    该节点负责将语音输入转换成可读的文字格式。支持您选择系统预置模型或第三方插件(讯飞)。

    image

    • 选择系统预置模型时,您可以配置语言模型静默时间以及自定义热词

      • 语言模型:您可以通过配置不同的语言模型,以满足您各类业务场景的需求。

      • 静默时间:静默时间是语音断句检测阈值,静音时间超过该值被识别为断句,您可以通过配置静默时间来控制语音识别的效果和智能体的响应速度,以避免智能体在用户未说完问题时作出回应,或因响应过慢而导致用户等待时间过长。该参数的取值范围为:200-3000(默认值为400),单位毫秒(ms)。

      • 自定义热词:您可以通过配置自定义热词来改善某些业务词汇的识别效果。热词功能配置详情,请参见语音识别热词

    • 当选择三方插件时,当前支持在STT节点中配置讯飞三方插件。详情请参见实时语音转写

    LLM 大语言模型

    基于STT转换得到的文字输入,LLM可以使用大型预训练语言模型来理解和生成自然语言文本。

    image您可以选择适合您应用场景的语言模型:使用系统内置的大语言模型(通义千问)或对接阿里百炼平台,您还可以按照OpenAI规范或阿里规范来接入自研大语言模型。

    • 选择对接阿里百炼平台提供的语言模型和服务时,您可以选择对接阿里百炼模型中心应用中心

      • 模型中心:需要先在阿里云百炼大模型服务平台进行模型部署,完成后,获取Modelld和模型Key。

        imageimage

      • 应用中心:需要先在阿里云百炼大模型服务平台创建智能体应用,完成后,获取AppId和API-KEY。

    • 自研模型标准接口说明,详情请参见LLM标准接口

    TTS 文字转语音

    该节点负责将处理后的文本转换回语音格式,以便用户听到系统的响应。

    image

    您可以选择适合您应用场景的文字转语音模型,包括:系统置模板自研模板三方插件百炼

    • 系统预置模板:在系统预置模板中,您可以配置不同语速和语调的音色,以便快速找到最合适的音色。

    • 自研模板:您可以通过规范协议将您的自研大模型加入到工作流当中。详情请参见TTS标准接口

    • 三方插件:当前仅支持选择MiniMax语音模型,该模型可以满足复杂生产力以及多语言人设对话场景需求,最大支持245k上下文窗口。具体详情,请参见MiniMax语音模型

    • 百炼:您也可以选择接入百炼应用平台,目前仅支持使用百炼的CosyVoice语音合成模型。更多使用详情,请前往语音合成CosyVoice大模型

    数字人

    该节点负责生成与处理后的文本和音频相对应的动作、表情和口型同步的3D数字人视频流。

    当前支持在3D数字人节点中配置三方相芯数字人。配置前您需要咨询相芯科技客服,开通相芯科技3D数字人服务,更多配置详情请参见数字人集成

    image

    视频抽帧

    该节点负责从视频中抽取单帧或多帧的图片。

    image

    MLLM多模态大模型

    基于前置节点对视频的处理,MLLM可以对输入的图片与文字进行理解,生成自然语言文本。

    image

    您可以选择适合您应用场景的语言模型:使用系统内置的多模态大模型(通义千问)或对接阿里百炼平台,您还可以按照OpenAI规范来接入自研多模态大模型。

    • 选择对接阿里百炼平台提供的语言模型和服务时,您可以选择对接阿里百炼模型中心应用中心

      • 模型中心:需要先在阿里云百炼大模型服务平台进行模型部署,完成后,获取Modelld和模型Key。

        imageimage

      • 应用中心:需要先在阿里云百炼大模型服务平台创建智能体应用,完成后,获取AppId和API-KEY。

    • 自研模型标准接口说明,详情请参见MLLM标准接口

  4. 单击保存,完成工作流创建。

管理实时工作流模板

完成工作流创建后,您可以在实时工作流模板页面查看已创建的模板与系统预置模板。并对模板进行如下操作:

  • 查看工作流:单击操作列的管理,可以查看工作流详情。

  • 编辑工作流:在工作流详情页,您可以单击右上角的编辑按钮,对工作流进行修改操作,包括:修改工作流名称、修改工作流节点的配置信息。

  • 删除工作流:单击操作列的删除,可以删除已创建的工作流。

    • 系统预置的模板不可删除。

    • 当前模板有关联的智能体正在进行此工作流,则不允许执行删除操作。

使用实时工作流模板

通过控制台发起工作流:您可以在创建智能体时,选择合适的工作流模板,自动处理RTC音视频流,实现语音转文字、文字转语音及智能对话等功能。