消息对话快速入门

更新时间:
复制为 MD 格式

本文将为您介绍如何快速创建消息对话智能体。

为了使用阿里云AI实时互动服务,您需要满足以下条件:

  • 请先确保已开通 AI 实时互动功能。若尚未开通,请前往开通服务,已开通用户可直接使用。

    说明

    若出现“您当前购买数量超过还可购买的数量余量,请重新选择数量!”,表明服务已经开通。

第一步 创建消息对话工作流

  1. 登录智能媒体服务控制台,单击创建工作流模板

  2. 选择消息对话类型工作流,按需配置工作流节点信息。

    说明

    若要实现语音识别或文本朗读功能,您必须配置以下节点:

    • 配置STT 语音转文字节点可以实现按键语音识别。

    • 配置TTS 文字转语音节点可以实现文本朗读。

    STT 语音转文字

    该节点负责将语音输入转换成可读的文字格式,支持多语种识别。

    可选的模型版本包括:系统预置ASR(中英混合场景推荐,识别准确率更高)、Qwen3-ASR-RealtimeFun-ASR-RealtimeNLS-ASR(延迟更低,追求超低延迟场景推荐)。静默时间默认值为 400 ms。热词和敏感词上传文件要求:TXT格式、500个词以内、每词不超过10字符、100KB以内、UTF-8BOM编码。

    • 系统预置系统预置模型支持您选择语言模型、设置静默时间以及配置自定义热词。

      • 模型:您可以根据您的业务场景,选择不同的语言模型。

      • 静默时间:当用户没有声音输入时,智能体的等待时间。

      • 自定义热词:通过配置热词可以提高业务领域词汇识别效果。详情请参见语音识别热词

      • 自定义敏感词:配置敏感词后,语音识别如果检测到敏感词,客户端字幕将直接进行脱敏处理,并使用“*”进行替换。详情请参见自定义敏感词

    • 三方插件:当前支持选择讯飞语音识别。获取对应参数请前往讯飞实时语音听写

    TTS 文字转语音

    该节点负责将处理后的文本转换回语音格式,以便用户听到系统的响应。

    配置弹窗中还包含:版本选择(文字转语音 2.0文字转语音 1.0(旧))、音色选择(如云峰)、音量设置(范围 0~100)以及试听内容输入区域(上限 200 字),单击点击试听可预览语音效果。

    您可以选择适合您应用场景的文字转语音模型,包括:系统预置模板自研模板三方插件百炼

    • 系统预置模板:包含系统预置TTSCosyVoiceQwen3-TTS

    • 自研模板:您可以通过规范协议将您的自研大模型加入到工作流当中。详情请参见TTS标准接口

    • 三方插件:当前仅支持选择MiniMax语音模型,目前有多个版本供您选择,推荐您使用最新版本。具体详情,请参见MiniMax语音模型

    • 百炼:如果您的业务需要应用自定义音色场景,建议您接入阿里百炼应用平台。接入详情,请参见声音复刻

    LLM 大语言模型

    基于STT转换得到的文字输入,LLM可以使用大型预训练语言模型来理解和生成自然语言文本。

    在 LLM 大语言模型节点的基础信息中,还需配置系统人设(包括角色设定、任务目标、具备的能力及回复的要求与限制,最多 3072 字符)和对话记忆轮数(取值 0–30,增加轮数可保留更多对话上下文信息,但可能导致大模型处理时间变长)。

    目前AI实时互动支持您接入千问(系统预置)、阿里百炼平台、阿里通义星尘以及自研接入(OpenAI规范)。

    阿里百炼平台

    阿里云的大模型服务平台阿里百炼是一站式的大模型开发及应用构建平台。选择对接阿里百炼平台提供的语言模型和服务时,您可以选择对接阿里百炼模型中心应用中心

    说明

    如何接入阿里百炼大模型,请参见阿里云百炼✖AI实时互动最佳实践

    阿里通义星尘

    阿里通义星尘产品提供定制深度个性化智能体的能力,能够快速创造一个拥有自己独特的人设、风格的智能体,结合数字人语音实时交互能力,可以在指定的不同的场景中进行丰富的互动。

    • ModelId:目前阿里通义星尘有xingchen-litexingchen-basexingchen-plusxingchen-plus-v2xingchen-max五种模型供您选择。

    • API-KEY:请前往星尘控制台创建API KEY并获取。

    自研接入(OpenAI规范)

    AI实时互动也支持接入您自研的大模型,您可以按照OpenAI规范接入您的大模型。

    OpenAI规范:如果您选择按照OpenAI规范接入,您需要填入以下参数

    名称

    描述

    示例值

    ModelId

    OpenAI标准model字段,表示模型名称

    abc

    API-KEY

    OpenAI标准api_key字段,表示API鉴权信息

    AUJH-pfnTNMPBm6iWXcJAcWsrscb5KYaLitQhHBLKrI

    目标模型HTTPS地址

    OpenAI标准base_url字段,表示目标服务请求地址

    http://www.abc.com

    更多自研LLM接入详情,请参见LLM标准接口

  3. 单击保存,完成消息对话工作流创建。

第二步 创建消息对话智能体

  1. 登录智能媒体服务控制台,单击创建智能体

  2. 配置基本信息,绑定消息对话工作流

    设置工作流类型消息对话,从工作流ID下拉列表中选择目标工作流,并配置互动消息应用

  3. 创建互动消息应用

    说明

    消息对话依赖于互动消息应用,互动消息应用作为通信桥梁,确保对话功能的正常运作。

    创建应用对话框中,选择区域(如华东2(上海)),填写应用名称(2~16字符),设置消息存储时长(默认30),根据需要开启回调设置安全审核开关,然后单击创建

  4. 配置互动消息应用,单击提交,完成消息对话智能体创建。

第三步 体验智能体

消息对话智能体创建完成后,您可以通过扫描体验二维码来进行智能体的体验。

  1. 控制台生成Demo体验二维码。

    在左侧导航栏单击智能体管理,找到目标智能体,在操作列单击Demo体验二维码。在弹出的对话框中选择过期时间(可选1小时7小时24小时3),然后单击生成

  2. 请使用钉钉、微信或浏览器扫描二维码,或将体验地址复制到浏览器中,以体验H5版本的Demo。

    Demo体验二维码弹窗中,左侧为 APP 二维码,右侧为 H5 二维码。弹窗下方还展示H5体验地址体验Token过期时间,每项均可单击右侧图标复制。

集成消息对话智能体

您需要提前准备好以下参数,方便您进行集成。如何将消息对话智能体集成到您的项目中,请参考消息对话智能体集成

  • Region ID:智能媒体服务控制台上工作流、智能体所在区域。您可以在控制台顶部左上角的地域选择器中查看当前所选Region ID。

    地域名称

    Region Id

    华东1(杭州)

    cn-hangzhou

    华东2(上海)

    cn-shanghai

    华北2(北京)

    cn-beijing

    华南1(深圳)

    cn-shenzhen

    新加坡

    ap-southeast-1

  • 互动消息的AppIdAppKey:

    智能体管理详情页的工作流配置区域,互动消息应用字段中可查看关联的 AppId。

    在视频直播控制台的应用管理页面,单击目标应用打开详情面板,找到AppIdAppKey字段,单击旁边的复制图标获取对应值。

  • AccessKey IDAccessKey Secret:获取详情,请参见创建AccessKey