本文档介绍虚拟数字人开放平台的定义、产品架构、产品能力、控制台功能、应用场景、产品优势等相关信息。
虚拟数字人开放平台,是由阿里云所提供的数字人服务,它集成了自然语言处理、图形图像、语音等算法能力,提供给客户标准的 PaaS 接口与后台运营工具,方便客户将数字人能力集成进不同的终端与场景。主要面对的行业包括新零售、政务、金融、运营商、传媒等,场景包括数字人大屏、数字人直播、数字人客服、数字人长/短视频、数字人助理等。
产品架构
产品能力概述
虚拟数字人开放平台包含3D、2D两种数字人形式。其中3D数字人指的是通过三维建模制作的数字人,2D数字人指的是通过拍摄真人视频制作的数字人。
在产品能力上,虚拟数字人开放平台提供了数字人流媒体、数字人视频合成、数字人资产库,方便开发者快速开发自己的各类数字人应用。以下为各类产品能力的简介。
3D数字人流媒体:提供实时驱动3D数字人进行文本播报的产品能力。支持通过API向服务端发送文本,服务端接收到数据后处理成数字人的声音、表情、口型、动作,然后将对应数据通过流媒体技术合成视频流,输出到对应的流媒体渠道,如官方的阿里云RTC,或者客户指定的RTMP流媒体服务器,然后客户可以通过对应的流媒体渠道客户端SDK进行拉流展示到对应的显示端,如大屏、手机、web页面等。3D数字人流媒体产品支持播报数字人、互动数字人、推流数字人三种模板,分别适合用作数字人资讯播报、数字人客服助理、数字人虚拟直播等场景。其中互动数字人需要结合智能对话机器人一起使用。
3D/2D数字人视频合成:提供离线驱动3D/2D数字人进行文本播报生成对应视频的产品能力。支持通过API以及SaaS页面两种方式向服务端发送文本,服务端接收到数据后处理成数字人的声音、表情、口型、动作,然后将对应数据合成指定格式的视频,并提供对应的视频下载地址,客户可以从下载地址下载对应的数字人视频进行二次编辑和投放。两种交互形式:
API接口调用:适合用作批量数字人视频制作,或者用于打造开发者自己的数字人视频创作SaaS应用,3D数字人视频合成的API已经商业化发布,2D数字人视频合成的API目前正在邀测。
SaaS界面交互:提供一套可供编辑的数字人视频制作工具,可以自由选择数字人的形象、声音、布局、字幕等,并最终生成数字人视频,目前该种方式的产品功能正在邀测。
3D/2D数字人资产库:提供3D/2D数字人形象的预览、捏脸、换装、声音切换等编辑管理能力。官方提供了丰富的3D数字人和2D数字人形象,并支持对官方形象进行预览和编辑,如换装以及声音切换等(2D数字人形象暂不支持编辑)。平台资产库中的所有形象可以直接应用到平台提供的所有的产品能力中。
目前3D数字人流媒体、3D数字人视频合成的接口调用已经商业化发布,3D数字人资产库在购买或开通上述两种能力后可以在同一个阿里云账号下使用。
2D数字人视频合成接口调用已经商业化发布,2D数字人资产库在购买或开通上述能力后可以在同一个阿里云账号下使用。
控制台功能
产品能力概述中提到的各项能力,均可以在虚拟数字人开放平台的控制台中体验到。
主模块 | 子模块 | 模块内容 |
应用中心 | 视频创作 | 提供一个简约便捷的Web网页操作界面,可实现“输入文本,驱动数字人形象生成视频,并下载视频内容”的效果。 |
开发者中心 | 项目管理 | 设置应用名称、关联的实例,配置关联的数字人形象、字幕开关、页面布局等,并提供开发者信息。 |
实例管理 | 管理用户阿里云账号下的实例,例如续费、退订、升降配等。 | |
数字人卡片 | 包含模板管理与卡片管理两个功能,数字人卡片支持用户在向数字人发送文本播报请求的时候加入符合VAML协议的参数,以实现在数字人流媒体画面中出现图文及选项卡片的效果。 | |
资产中心 | 2D数字人资产 | 管理2D数字人,设置角色名称、角色描述、角色语音,支持增删改查。 |
3D数字人资产 | 管理3D数字人,设置角色名称、角色描述、角色语音,支持对数字人的发型、妆容、服装以及背景进行设置,支持增删改查。 |
应用场景
资讯播报:通过 PaaS 接口传递数字人即将播报的文本,可以获得数字人播报的视频流,通过在端上集成 RTC 拉流可以实现数字人资讯播报的效果。详情请见接入指南与数字人流媒体开发指南。
虚拟直播:直接通过RTMP协议将数字人流媒体推送到直播平台从而实现数字人开播效果,需要注意的是数字人的互动、问答需要开发者自行实现。详情请见接入指南与数字人流媒体开发指南。
客服助理:通过数字人流媒体服务,结合智能对话机器人或其他对话能力,可以实现与数字人进行自然语言互动的效果。详情请见接入指南与数字人流媒体开发指南。
视频合成:通过接口传递数字人即将播报的文本,可以合成数字人的视频及相应的字幕下载地址,可以调节数字人的机位、选择视频输出格式。详情请见接入指南与数字人视频合成开发指南。
产品优势
简单高效的 PaaS 服务接口
客户调用虚拟数字人能力只需要通过标准的 Text To Stream 数字人流媒体接口即可,无需关注底层数字人驱动的具体实现方式。
完善的控制台运营工具
支持自定义数字人的声音、形象等,内置数十种数字人装扮,方便客户针对不同业务属性创建不同风格的数字人形象。
语音、视觉多模态交互
毫秒级实时的语音流、视频流处理技术,数字人实现语音、表情、手势动作和环境的多维度多方位立体交互。
内置资产
支持3D卡通、3D美型、2D真人数字人形象,以及普通话、方言等不同类型和风格的发音人。
高内聚标准接口
封装了数字人渲染、驱动、构建、互动等能力,无需关注内部实现,大大降低研发周期和成本。
多元化媒体服务
提供RTC、RTMP、视频合成等不同的媒体服务。
自助扩缩容
提供自助升降配功能,以及弹性、停复机等按量计费能力。
使用虚拟数字人开放平台
要使用虚拟数字人开放平台开发自己的数字人应用,可以参考准备工作、接入指南、开通服务、创建并配置数字人应用等文档。