实时工作流是一种预先定义的流程模板,用于自动化处理RTC音视频流。支持创建语音通话和3D数字人通话等多种场景,并且预设了多种功能节点,包括语音转文字 (STT)、文字转语音 (TTS)、文生文大语言模型(LLM)以及3D数字人等。平台提供了可直接选用的预置模板,让智能体自动按照预设好的流程工作。通过阅读本文,您可以了解如何配置实时工作流模板。
使用限制
系统内置模板,所有账户均可使用。
自定义模板,仅允许创建者独自使用。
系统预置的模板不可删除。
工作流类型概述
您可以根据具体需求选择创建语言通话、3D数字人通话和视觉理解通话类型的工作流模板。每个工作流已预先配置好节点,无需您手动添加或删除节点,使智能体自动按照预设好的流程工作。
工作流类型 | 适用场景 | 处理流程 |
工作流类型 | 适用场景 | 处理流程 |
语音通话 | 适用于一对一或群组语音交流的场景。用户可以通过语音直接与智能助手进行交互,从而获得及时的信息反馈和服务支持。 |
|
3D数字人通话 | 利用3D技术模拟虚拟人物形象进行互动,3D数字人不仅能够实现语音交互,还能够通过丰富的肢体动作和面部表情,增强用户体验的真实感与参与度。 |
|
视觉理解通话 | 通过视频方式与智能体进行直接交互,智能体通过分析视频内容进行识别与解释。涵盖了物体检测与识别、场景理解与分割、语义分析以及活动与行为识别等方面。智能体不仅能够“看到”图像中的对象,还能够理解它们之间的关系及其所处的上下文。 |
|
消息对话 | 用户可以通过语音或文本以聊天对话框的形式与智能体进行交互,以获取及时的信息反馈和服务支持。 |
|
通过控制台创建实时工作流模板
进入智能媒体服务控制台,创建工作流模板。
配置基础信息。
您可以自定义工作流名称,便于后续创建智能体时选择对应的工作流模板。
选择工作流类型,配置工作流节点。
您可以根据具体需求选择合适的工作流类型。每个工作流已预先配置好节点,并不支持增删操作,但您可以自由编辑节点内容。工作流类型介绍请参见工作流类型概述。
STT 语音转文字LLM 大语言模型TTS 文字转语音数字人视频抽帧MLLM多模态大模型该节点负责将语音输入转换成可读的文字格式,支持多语种识别。同时,阿里云也为您提供了系统预置模型或第三方插件(讯飞)两种方案。
基于STT转换得到的文字输入,LLM可以使用大型预训练语言模型来理解和生成自然语言文本。
目前AI实时互动支持您接入通义千问(系统预置)、阿里百炼平台、阿里通义星辰以及自研大模型。
百炼平台通义星辰自研模型阿里云的大模型服务平台百炼是一站式的大模型开发及应用构建平台。选择对接阿里百炼平台提供的语言模型和服务时,您可以选择对接阿里百炼模型中心或应用中心。
模型中心:需要先在阿里云百炼大模型服务平台进行模型部署,完成后,获取ModelId和模型Key。
应用中心:需要先在阿里云百炼大模型服务平台创建智能体应用,完成后,获取AppId。
单击调用,进入智能体应用界面,单击右上角API KEY,获取API-KEY。
如何接入百炼大模型,请参见百炼✖AI实时互动最佳实践、业务参数透传百炼大模型。
通义星尘产品提供定制深度个性化智能体的能力,能够快速创造一个拥有自己独特的人设、风格的智能体,结合数字人语音实时交互能力,可以在指定的不同的场景中进行丰富的互动。
ModelId:目前通义星辰有
xingchen-lite
、xingchen-base
、xingchen-plus
、xingchen-plus-v2
、xingchen-max
五种模型供您选择。API-KEY:请前往星辰控制台创建API KEY并获取。
AI实时互动也支持接入您自研的大模型,您可以按照OpenAI规范接入您的大模型。
OpenAI规范:如果您选择按照OpenAI规范接入,您需要填入以下参数:
名称
描述
示例值
ModelId
OpenAI标准model字段,表示模型名称
abc
API-KEY
OpenAI标准api_key字段,表示API鉴权信息
AUJH-pfnTNMPBm6iWXcJAcWsrscb5KYaLitQhHBLKrI
目标模型HTTPS地址
OpenAI标准base_url字段,表示目标服务请求地址
http://www.abc.com
更多自研LLM接入详情,请参见LLM标准接口。
该节点负责将处理后的文本转换回语音格式,以便用户听到系统的响应。
您可以选择适合您应用场景的文字转语音模型,包括:系统置模板、自研模板、三方插件或百炼。
系统预置模板:选择预置模板时,您需要配置语音音色,各类型智能语音效果示例请参见智能语音效果示例。
自研模板:您可以通过规范协议将您的自研大模型加入到工作流当中。详情请参见TTS标准接口。
三方插件:当前仅支持选择MiniMax语音模型,该模型可以满足复杂生产力以及多语言人设对话场景需求,最大支持245k上下文窗口。具体详情,请参见MiniMax语音模型。
百炼:如果您的业务需要应用自定义音色场景,建议您接入百炼应用平台。接入详情,请参见基于百炼CosyVoice创建自定义音色。
在TTS节点,您也可以对LLM输入的内容进行过滤。
该节点负责生成与处理后的文本和音频相对应的动作、表情和口型同步的3D数字人视频流。
当前支持在3D数字人节点中配置相芯以和通义星辰数字人:
相芯:您需要咨询相芯科技客服,开通相芯科技3D数字人服务,获取AppId、AppKey以及AvatarId。
通义星尘:使用通义星尘数字人,请前往通义星尘控制台获取ModelId、AppKey以及AvatarId。
如需集成星尘数字人,相关流程涉及加白操作,详细信息烦请进群了解咨询。
更多配置详情,请参见数字人集成。
该节点负责从视频中抽取单帧或多帧的图片。
基于前置节点对视频的处理,MLLM可以对输入的图片与文字进行理解,生成自然语言文本。
您可以选择适合您应用场景的语言模型:使用系统内置的大语言模型(通义千问)或者按照OpenAI规范或阿里规范来接入自研多模态大语言模型。自研接入,请参考MLLM标准接口。
单击保存,完成工作流创建。
管理实时工作流模板
完成工作流创建后,您可以在实时工作流模板页面查看已创建的模板与系统预置模板。并对模板进行如下操作:
查看工作流:单击操作列的管理,可以查看工作流详情。
编辑工作流:在工作流详情页,您可以单击右上角的编辑按钮,对工作流进行修改操作,包括:修改工作流名称、修改工作流节点的配置信息。
删除工作流:单击操作列的删除,可以删除已创建的工作流。
系统预置的模板不可删除。
当前模板有关联的智能体正在进行此工作流,则不允许执行删除操作。
使用实时工作流模板
通过控制台发起工作流:您可以在创建智能体的时,选择合适的工作流模板,自动处理RTC音视频流,实现语音转文字、文字转语音及智能对话等功能。
- 本页导读 (1)
- 使用限制
- 工作流类型概述
- 通过控制台创建实时工作流模板
- 管理实时工作流模板
- 使用实时工作流模板