云渲染全链路数字人实时对话

更新时间:
复制 MD 格式

本文讲解如何创建一个云渲染全链路数字人实时对话项目,并于SDK中完成调用

1 服务入口

进入控制台对话互动页面,并创建一个云渲染全链路数字人,选择立即创建后,进入到项目编辑页

2 创建对话数字人项目

2.1 选择数字人形象

首先选择用于的数字人,左侧导航栏点击“形象”,可在此选择数字人形象;提供“2D公共形象”和“我创建的”形象选择。

image

2.2 选择数字人声音

左侧导航栏点击“声音”,可以试听并选择平台提供的公共音色,或者点击“我创建的”选择您已在声音库中创建成功的音色或自定义音色。

image

image

2.3 背景选择

点击左侧导航栏“背景”,可选择平台内置的背景或者纯色背景;同时可上传自定义背景,上传时请注意背景图大小要求。

image

2.4 人设编辑

点击左侧导航栏“人设,进行数字人的人物设定配置,将结合大语言模型进行语义理解和回复文本生成,并支持配置打断/唤醒关键词实现精细化交互控制。目前平台支持通义千问、阿里云百炼平台及自研大模型。

大模型配置

  • 通义千问:模型为千问系列模型,支持广域知识秒级回复问答;同时平台已为您预置典型场景模板支持一站式配置和体验。

  • image

  • image

  • 模型选择

    • 通义千问-Plus

      • 适用于通用对话场景;

      • 填写阿里云百炼 API-Key即可调用(调用费用以百炼为准)

    • image

    • 通义千问-Character(推荐使用)

      • 强化了话题推进、倾听共情等能力,多应用于角色扮演、情感陪伴等场景;

      • 填写阿里云百炼 API-Key即可调用(调用费用以百炼为准);

      • 支持知识库检索联网搜索真实时间同步以及选择短期记忆轮数(高级配置将产生额外token费用,以语言模型侧计费为准)

        • 知识库检索

          • 支持从您的百炼知识库中检索相关内容,适用于私有领域知识问答场景;

          • 知识库 ID 需在百炼控制台创建并处于“可用”状态;

          • 在输入框中填入阿里云百炼知识库 ID(每行1个,最多 10 个)

        • 联网搜索

          • 开启后可通过搜索引擎检索互联网数据获取回复

        • 真实时间

          • 开启后可与现实世界时间同步

        • image

        • 指定短期记忆

          • 同一轮对话中可记忆的对话条数,该设置项将影响对话效果;

          • 于【对话配置】中进行操作;

          • 增加记忆轮数会导致成本上升,请按需设置;

          • 默认值:50轮;最大值:300 轮imageimage

  • 百炼应用:阿里云百炼是一站式的大模型开发及应用构建平台,当您有复杂的agent类需求,比如有预期检索的私有知识库等,您可以选择对接阿里云百炼应用中心,平台将基于您填入的百炼应用ID,访问您于百炼平台创建的Agent获取数字人的输出。

image

  • 百炼应用ID,于阿里云百炼平台创建完成智能体应用后,获取。

  • image

  • API-KEY,单击发布,进入智能体应用界面,单击右上角API-KEY,获取。

  • image

  • 自研模型:您可以按照 OpenAI 规范接入您自研的大模型

如果您选择按照OpenAI规范接入,您需要填入以下参数:

参数

类型

描述

示例值

System Prompt

String

OpenAI标准prompt字段,表示系统提示词

回复请遵从人设,尽量简洁

模型ID

String

OpenAI标准model字段,表示模型名称

plll

API-KEY

String

OpenAI标准api_key字段,表示API鉴权信息

QZRK-7gFvXs2pLmN8dGjH5bTsWq3cVfY9nMjK

BaseUrl

String

OpenAI标准base_url字段,表示目标服务请求地址

http://www.abc.com

Api

String

OpenAI标准对话补全API请求路径,控制台模型填充了“/v1/chat/completions”, 可以按实际情况修改。实际访问时,平台后端服务会把BaseUrlApi拼接成一个完整的请求地址,并且用https协议来请求。

/v1/chat/completions

说明

控制台仅支持以流式的方式请求大语言模型服务。

关键词配置

在人设编辑页面的“关键词配置”区域,设置数字人的交互控制参数。

  • 打断关键词:输入特定词语,数字人播报时识别到该词会停止播报并进入聆听态

    • 仅在播报状态生效,聆听态和待机态不响应;

    • 支持配置1-3个打断关键词,文本不超过10个字;

image

  • 唤醒关键词:输入唤醒词,待机态下说出该词可唤醒数字人进入可交互状态

    • 仅在待机态生效;(注:仅配置唤醒词的项目会在接通后及超时后进入待机态)

    • 支持配置1-3个唤醒关键词,文本不超过10个字;

image

  • 进入待机状态:设置数字人自动切换到待机态的时间

    • 待机态定义为数字人处于非聆听、非播报的 “休眠” 状态,此时数字人不主动输出内容,也不监听除唤醒关键词外的输入;

    • 当数字人处于交互对话中,且持续未检测到有效语音对话,达到此设置时长后,将自动从交互态切换至待机态;

    • 单位:秒,默认60秒。

image

  • 短期记忆:

    重要

    注意,该配置仅通义模型:通义千问-Character支持

    • 同一轮对话中可记忆的对话条数,该设置项将影响对话效果

    • 单位:轮,默认50轮;最多可设置300

imageimage

3 进行数字人对话体验

编辑完成后,可以点击“通话”按钮于pc端控制台内进行对话体验

image

您可以通过页面右上角历史消息按钮查看与数字人的历史对话往来,以优化人设达到更满意的对话效果

image

4 发布数字人对话项目

确认效果符合预期后,点击右上角“发布配置”即可完成对话数字人项目的创建

image

5 SDK调用说明

若您需要将已创建成功2D数字人对话项目集成至您的终端使用,我们提供全链路集成SDK的接入方式,支持在您的终端驱动并渲染数字人。

说明

调用SDK时,您需要提前准备以下两个参数

image