创建音视频智能体快速入门-智能媒体服务-阿里云-智能媒体服务(IMS)-阿里云帮助中心

本文将为您介绍如何快速创建音视频智能体。

服务开通

为了使用阿里云AI实时互动服务，您需要满足以下条件：

请先确保已开通 AI 实时互动功能。若尚未开通，请前往开通服务，已开通用户可直接使用。
说明
若出现“您当前购买数量超过还可购买的数量余量，请重新选择数量！”，表明服务已经开通。

第一步创建音视频工作流

登录智能媒体服务控制台，单击创建工作流模板。

按需选择语音通话、数字人通话、视觉理解通话或视频通话，并配置工作流节点。

STT 语音转文字

该节点负责将语音输入转换成可读的文字格式，支持多语种识别。

模型版本包含以下选项：系统预置ASR（中英混合场景推荐，识别准确率更高）、Qwen3-ASR-Realtime、Fun-ASR-Realtime、NLS-ASR（延迟更低，追求超低延迟的场景时推荐）。静默时间默认值为400 ms。

系统预置：系统预置模型支持您选择语言模型、设置静默时间以及配置自定义热词。
- 模型：您可以根据您的业务场景，选择不同的语言模型。
- 静默时间：当用户没有声音输入时，智能体的等待时间。
- 自定义热词：通过配置热词可以提高业务领域词汇识别效果。详情请参见语音识别热词。
- 自定义敏感词：配置敏感词后，语音识别如果检测到敏感词，客户端字幕将直接进行脱敏处理，并使用“*”进行替换。详情请参见自定义敏感词。
三方插件：当前支持选择讯飞语音识别。获取对应参数请前往讯飞实时语音听写。

LLM 大语言模型

基于STT转换得到的文字输入，LLM可以使用大型预训练语言模型来理解和生成自然语言文本。

在 LLM 大语言模型节点的基础信息中，还需配置系统人设（包括角色设定、任务目标、具备的能力及回复的要求与限制，最多 3072 字符）和对话记忆轮数（取值 0–30，增加轮数可保留更多对话上下文信息，但可能导致大模型处理时间变长）。

目前AI实时互动支持您接入千问（系统预置）、阿里百炼平台、阿里通义星尘以及自研接入（OpenAI规范）。

阿里百炼平台

阿里云的大模型服务平台阿里百炼是一站式的大模型开发及应用构建平台。选择对接阿里百炼平台提供的语言模型和服务时，您可以选择对接阿里百炼模型中心或应用中心。

模型中心：进入阿里百炼模型广场选择适合您的模型，复制模型Code获取作为ModelId。
应用中心：需要先在阿里百炼大模型服务平台创建智能体应用，完成后，获取AppId。
进入百炼API-KEY管理页面，创建并复制API-Key。

说明

如何接入阿里百炼大模型，请参见阿里云百炼✖AI实时互动最佳实践。

阿里通义星尘

阿里通义星尘产品提供定制深度个性化智能体的能力，能够快速创造一个拥有自己独特的人设、风格的智能体，结合数字人语音实时交互能力，可以在指定的不同的场景中进行丰富的互动。

ModelId：目前阿里通义星尘有xingchen-lite、xingchen-base、xingchen-plus、xingchen-plus-v2、xingchen-max五种模型供您选择。
API-KEY：请前往星尘控制台创建API KEY并获取。

自研接入（OpenAI规范）

AI实时互动也支持接入您自研的大模型，您可以按照OpenAI规范接入您的大模型。

OpenAI规范：如果您选择按照OpenAI规范接入，您需要填入以下参数：

名称	描述	示例值
ModelId	OpenAI标准model字段，表示模型名称	abc
API-KEY	OpenAI标准api_key字段，表示API鉴权信息	AUJH-pfnTNMPBm6iWXcJAcWsrscb5KYaLitQhHBLKrI
目标模型HTTPS地址	OpenAI标准base_url字段，表示目标服务请求地址	http://www.abc.com

更多自研LLM接入详情，请参见LLM标准接口。

TTS 文字转语音

该节点负责将处理后的文本转换回语音格式，以便用户听到系统的响应。

在 TTS 节点配置中，您还可以选择版本（文字转语音 2.0 或 文字转语音 1.0（旧）），设置音色（如云峰），调整音量（范围 0～100），并通过试听内容文本框输入文字后单击点击试听预览语音效果。

您可以选择适合您应用场景的文字转语音模型，包括：系统预置模板、自研模板、三方插件或百炼。
- 系统预置模板：包含系统预置TTS、CosyVoice、Qwen3-TTS。
- 自研模板：您可以通过规范协议将您的自研大模型加入到工作流当中。详情请参见TTS标准接口。
- 三方插件：当前仅支持选择MiniMax语音模型，目前有多个版本供您选择，推荐您使用最新版本。具体详情，请参见MiniMax语音模型。
- 百炼：如果您的业务需要应用自定义音色场景，建议您接入阿里百炼应用平台。接入详情，请参见声音复刻。
在TTS节点，您也可以对LLM输入的内容进行过滤。

在过滤设置下拉菜单中，可选择需要过滤的括号类型，包括中文括号（）、英文括号()、中文方括号【】、英文方括号[]和英文花括号{}。
文本归一化：将文本中的数字、符号等转换为统一标准格式，提升合成语音的质量。如“120”转换为“幺二零”。

数字人

该节点负责生成与处理后的文本和音频相对应的动作、表情和口型同步的数字人视频流。

配置弹窗包含以下设置：节点名称（自动生成）；输入类型为文本流和音频流，输出类型为视频流。

当前支持在数字人节点中对接数字人插件、对接阿里灵境数字人：

对接数字人插件：
- 相芯：您需要咨询相芯科技客服，开通相芯科技3D数字人服务，获取AppId、AppKey以及AvatarId。
对接阿里灵境数字人：对接阿里灵境数字人，您需要通过提交工单进行开通使用。

视频抽帧

该节点负责从视频中抽取单帧或多帧的图片。

配置弹窗包含以下设置：节点名称（自动生成），抽帧频率（范围1–30张/秒）；输入类型为视频流，输出类型为图片(base64格式)。

VCR 视频内容理解

该节点负责识别视频内容中，是否存在特定行为。

在 VCR 视频内容理解节点 配置弹窗中，设置 节点名称，并在 识别内容 区域勾选所需选项，包括 画面是否固定、无效画面识别、画面人数、头部运动识别、电子设备识别、视线偏移识别 和 自定义模型检测识别。勾选 自定义模型检测识别 后需填写 检测任务ID，不超过100字符，支持数字、大小写字母、短横线和下划线，且短横线和下划线不能位于首尾。

MLLM多模态大模型

基于前置节点对数据的处理，MLLM可以对输入的图片与文字进行理解，生成自然语言文本。您也可以通过选择不同类型的模型来控制模型的输入。

节点配置面板中，模型类型可选多模态模型或文生文模型；系统人设用于设置角色设定、任务目标、具备的能力及回复的要求与限制等，最多支持 3072 字符；对话记忆轮数范围为 1 到 30，增加记忆轮数可保留更多对话上下文信息，但可能导致大模型处理时间变长。

目前AI实时互动支持您接入千问（系统预置）、阿里百炼平台、阿里通义星尘以及自研大模型。

阿里百炼平台

模型中心：进入阿里百炼模型广场选择适合您的模型，复制模型Code获取作为ModelId。
应用中心：需要先在阿里百炼大模型服务平台创建智能体应用，完成后，获取AppId。
进入百炼API-KEY管理页面，创建并复制API-Key。

说明

如何接入阿里百炼大模型，请参见阿里云百炼✖AI实时互动最佳实践。

通义星尘

通义星尘产品提供定制深度个性化智能体的能力，能够快速创造一个拥有自己独特的人设、风格的智能体，结合数字人语音实时交互能力，可以在指定的不同的场景中进行丰富的互动。

ModelId：目前通义星尘有xingchen-lite、xingchen-base、xingchen-plus、xingchen-plus-v2、xingchen-max五种模型供您选择。
API-KEY：请前往星尘控制台创建API KEY并获取。

自研模型

AI实时互动也支持接入您自研的大模型，您可以按照OpenAI规范接入您的大模型。

OpenAI规范：如果您选择按照OpenAI规范接入，您需要填入以下参数：

名称	类型	必填	描述	示例值
ModelId	String	是	OpenAI标准model字段，表示模型名称	abc
API-KEY	String	是	OpenAI标准api_key字段，表示API鉴权信息	AUJH-pfnTNMPBm6iWXcJAcWsrscb5KYaLitQhHBLKrI
目标模型HTTPS地址	String	是	OpenAI标准base_url字段，表示目标服务请求地址	http://www.abc.com
单次调用图片数上限	Integer	是	由于部分多模态大模型单次请求可接收图片帧数量有上限，您可以设置此参数来适配不同的大模型。在请求您的MLLM服务时，会自动按照该值对视频进行抽帧采样。	15

更多自研接入，请参考MLLM标准接口。

单击保存，完成音视频工作流创建。

第二步创建音视频智能体

登录智能媒体服务控制台，单击创建智能体。
配置基础信息，绑定音视频类型实时工作流。
1. 绑定具体的音视频工作流，AI智能体将遵循工作流运行。
  
  设置工作流类型（可选语音通话、数字人通话、视觉理解通话、消息对话或视频通话），并在工作流ID下拉框中选择需要绑定的工作流。
2. 在配置智能体时，选择当前账号下已创建的实时音视频ARTC应用，若登录账号下还未创建实时音视频ARTC应用，您也可以通过选择系统自动创建。实时音视频更多内容，请参见实时音视频简介。
  
  说明
  AI实时互动依赖于ARTC应用，ARTC应用作为通信桥梁，确保对话功能的正常运作。
3. 当您绑定的工作流类型为语音通话时，可以在高级功能配置中上传自定义形象，以便在语音通话场景中展示该形象。
  
  开启自定义智能体形象开关后，在图片来源中选择指定图片URI或上传图片，并填写或上传形象图片。支持GIF、PNG、JPG格式，图片大小不超过3 MB。
单击提交，完成音视频智能体创建。

第三步体验智能体

消息对话智能体创建完成后，您可以通过扫描体验二维码来进行智能体的体验。

在控制台生成Demo体验二维码。

在左侧导航栏单击智能体管理，找到目标智能体，在操作列单击Demo体验二维码。在弹出的对话框中选择过期时间（可选1小时、7小时、24小时、3天），然后单击生成。
请使用钉钉、微信或浏览器扫描二维码，或将体验地址复制到浏览器中，以体验H5版本的Demo。

在Demo体验二维码弹窗中，左侧为 APP 二维码，右侧为 H5 二维码。弹窗下方还展示H5体验地址、体验Token及过期时间，每项均可单击右侧图标复制。

集成音视频智能体

您需要提前准备好以下参数，方便您进行集成。如何将音视频智能体集成到您的项目中，请参见音视频通话智能体集成。

Region ID：智能媒体服务控制台上工作流、智能体所在区域。您可以在控制台顶部左上角的地域选择器中查看当前所选Region ID。

地域名称	Region Id
华东1（杭州）	cn-hangzhou
华东2（上海）	cn-shanghai
华北2（北京）	cn-beijing
华南1（深圳）	cn-shenzhen
新加坡	ap-southeast-1

ARTC应用的AppId和AppKey。

在智能体管理页面，单击基本信息页签，在工作流配置区域的实时音视频RTC应用字段中可查看对应的 RTC AppID。

在视频直播控制台左侧导航栏选择直播+ > 实时音视频 > 应用管理，单击目标应用进入详情页，在基本信息区域查看并复制对应值。
AccessKey ID和AccessKey Secret：获取详情，请参见创建AccessKey。