2D数字人离线合成操作手册_营销引擎(Marketing Engine)-阿里云帮助中心

一、登录

登录磐曦智创平台：https://imarketing.console.aliyun.com/

选择2D数字人>视频生成进入

二、权限管理

主账号设置管理员和普通用户身份，并给对应账号配置模型权限、数据权限、功能权限。

1.普通用户权限：管理员可对普通用户授权可用的私模形象和声音，并查看每个普通用户当前已授权的可用形象和声音数量。

2.管理员权限：

数据权限：可设置管理员账号下产生的数据是否对其他账号可见可使用，包括项目、数字人协议、素材/贴纸/背景、画面模板、知识库、智能体是否与所有普通用户共享，普通用户相互之间产生的数据是独立隔离的。
功能权限：可对所有普通用户开启/关闭功能权限，包括复刻形象及声音、声音复刻（限免功能）

3、资源权限：

管理员账户可针对不同业务，对某个子账号进行对应的资源量控制，也可查看每个子账号当前的可用最大资源量和已使用资源量。

设置资源量：当前页面可查看主账号可用公共资源数剩余量，根据该剩余量可限制某个子账号最大可使用的资源量，分配的可用最大资源用量数值，不得超过主账号的资源用量。
修改资源量：可对已编辑过的配置进行修改，其中追加和减少表示在当前配置的总量上进行增减，当前子账号已有限制最大资源量时，再次修改，需要大于等于已使用/已占用资源量

取消限制：即取消某个子账号最大可用资源量的限制，该子账号可以使用主账号公共资源池中的所有资源。

4、配置记录：

管理员在配置记录中可查看对某个子账号的配置记录，以及对应操作人。

三、视频制作

（一）、2D数字人视频制作

制作视频前需准备以下素材

1.脚本（支持文本和音频）

2.主播（支持公模或定制化私模）

3.声音（支持公模声音或定制化私模声音）

4.字幕（一键开关）

5.背景素材（提供选择）

6.贴纸素材（非必填，提供选择）

7.视频素材（非必填）

8.水印（非必填，提供选择）

9.PPT/PDF导入（非必填，提供选择）

3.1新建视频

支持9:16竖屏、16:9横屏

3.2主播形象

选择最终视频生成的主播形象，支持公模、私模的选择，拖拽移动或者右侧可进行位置调整。

2D数字人-静态数字人：即背景可替换的2D数字人
2D数字人-动态实景数字人：即背景为动态实景且不可替换的2D数字人

照片数字人：即提供一张照片，可智能驱动嘴形播报的数字人

1、支持选择平台预置的照片

2、支持自定义上传照片，上传图片后生成私模。

数字人名称：自定义，主账号下唯一，不超过20字符。

性别：上传时填写数字人性别

格式：jpg、jpeg、png、bmp

尺寸：1:1（适用于头像图片，将对应生成512*512的头像视频）；3:4（适用于半身像图片，将对应生成512*704的半身像视频）

图像分辨率：图像最小边长≥400像素，最大边长≤6000像素

脸部区域：要求支持人物头像、半身像，不支持全身像

脸部类型：要求支持真人脸、动漫脸，不支持动物脸

脸部角度：要求正脸、人脸不能过小、面部朝向无严重偏移、脸部无遮挡嘴部完全透出

图片内容：要求画面中必须有一个人，不支持多个人，不能过暗

3、支持选择平台AI人物图：复用营销图文-人物图生成的功能，需扣减账号下对应资源，当前账号下有可用的资源可直接选择，同时也提供制作入口。

照片数字人选择后可对图片进行编辑处理：

支持对上传的本地图片/平台AI生图的图片/默认图进行裁剪尺寸、左右水平翻转，不改变平台提供的原始图和账户中生成的已有图，只是基于此图进行了处理并制作照片数字人
AI去背景：可选择是否需要平台帮助自动扣除背景，默认关闭

处理完成照片数字人后，创建照片数字人，输入数字人名称、性别，选择照片类型，如处理后的图为透明背景则选择“透明背景数字人”，如处理后是带背景的则选择“常规背景照片数字人”，此处注意：请谨慎选择对应照片类型，会影响最后生成的照片数字人效果。

创建照片数字人可在编辑器右侧，对照片数字人设置运动幅度，当前支持3种：适中、平静、活泼，默认为适中。

适中：默认动作模板，头部动作幅度适中，适用于多种场景。

平静：人物表现平静，头部动作幅度较小，推荐用于播报等场景。

活泼：人物表现活泼，头部动作幅度较大，推荐用于演唱等场景。

完成以上照片数字人的操作后，编辑器中增加背景、贴纸、脚本、素材等其他操作与2D数字人一致。

3.3脚本编辑

3.3.1文本驱动

2D数字人支持输入文本：10字<x<1500字
照片数字人支持输入文本：10字<x<250字
支持导入脚本：可在左下方下载“脚本模板”，单次支持上传1个EXCEL格式的文件，上传后根据片段个数自动添加片段，并按脚本先后顺序，将对应脚本内容填写到脚本区中，每个片段遵循10字<x<1500字，注意请勿修改模板中的标题。

1.已审核脚本：将覆盖已有片段的脚本，脚本不支持二次修改

2.未审核脚本：将会增加带脚本的空白片段，脚本支持二次修改

支持智能写稿：通过AI生成文案

AI写稿支持引用自定义知识库，知识库作为一个结构化的数据存储系统，能够为AI模型提供丰富、准确的学习材料。通过学习知识库中的数据，AI模型能够不断提升其理解、推理和决策的能力，从而在实际应用中更加高效和精准。

1.用户在工具能力增强-知识库中创建多种不同知识库类型。

2.在数字人编辑器-AI脚本生成时可以引用上面创建的知识库，用户可根据自身需求勾选需要的单个或同时多个知识库，也可一键全选，如果未选择知识库，则默认基于阿里云大模型算法智能生成文案。

3.3.2音频驱动

拖拽音频或点击上传文件

格式：mp3、wav

2D数字人时长：<30min，照片数字人时长：<60s

3.3.3管理变音

1、点击脚本底部“管理变音”或顶部“菜单栏工具能力增强-数字人工具能力”均可进入变音管理界面。

2、在变音管理界面中添加变音，支持音标替换、拼音替换、文本替换三种类型，可对添加的变音进行编辑、删除操作，此处注意：若删除对应的变音，脚本内已引用的变音会同步失效。

3、脚本中也支持直接拼音替换、文本替换、划词连读、停顿（0.5s、1s、2s、3s、4s、5s、6s、7s、8s、9s、10s）、试听等功能。

拼音变音

如脚本中有多音字需要变音，鼠标选中该字符，上部点击拼音替换，输入原字符和需要替换的拼音，拼音格式为：拼音及数字1-5；1-4为声部一到四声，5为轻声，例如：藏 zang4，此处原字符最多支持10种拼音变音。

此处注意：若删除对应的拼音读法，脚本内已引用的变音会同步失效。

添加完替换的拼音以后，即可在脚本原文中选中该字符替换拼音读音。

文本变音

如脚本中有多音字需要变音，鼠标选中该字符，上部点击文本替换，输入原字符和变音后的读法文本，此处一个原字符最多支持10种变音，支持删除、编辑修改。

此处注意：若删除对应的文本读法，脚本内已引用的变音会同步失效。

添加完替换的文本以后，即可在脚本原文中选中该字符替换文本读音。

音标变音

支持参考底部学术音标表添加音标变音，添加完音标后，在脚本中选中某单词选择音标替换。

此处注意：若删除对应的音标读法，脚本内已引用的变音会同步失效。

3.4主播声音

选择主播声音：支持定制声音、公共声音，右上角小耳机图标可以试听声音，模特性别与声音不匹配的不支持选择

选择某种声音后，支持全局应用主播声音，可全片段应用所选声音

注意：选中某声音应用全局，若全局片段中存在多种性别的主播，女性声音只可应用于女性主播，男性声音只可应用于男性主播，全局应用的声音性别和主播性别不匹配的片段则声音不生效，或者某个片段的主播未绑定当前选择的声音，则该片段也无法应用

调整声音语速：支持0.8倍、0.9倍、1倍、1.1倍、1.2倍、1.3倍、1.4倍、1.5倍、2倍

3.5背景

推荐背景中支持选择已有的背景素材
我的背景中支持本地上传素材，支持jpg、png格式，不超过10MB

点击左侧背景选择即可添加成功，在中间预览窗口点击背景按键盘delete键可删除背景图层。

透明背景

背景栏右上角“透明背景”开关，打开透明背景对所有画面生效，动态实景数字人不支持使用透明背景。

需要注意：透明视频开启后不支持选择背景，如此前已选好了背景，开启时保留，但页面上变为透明样式，不支持前置素材，包括图片视频贴纸、水印、文字；以及调整数字人大小和位置；默认生成.webm格式的视频；

关闭后原选择的背景还能继续使用，关闭透明背景，默认生成.mp4文件；

3.6素材

素材是指美化视频的贴片，支持图片和视频素材的本地上传，调整位置及大小。

图片素材：支持jpg、png格式，大小不超过10MB
视频素材：支持mp4格式，大小不超过1GB

上传后点击素材即可添加成功，在中间预览窗口点击素材，按住键盘delete键删除，右侧拖动图层进行图层上移、下移，复制、删除、可将素材应用到所有画布。

视频素材支持预览视频、音量调节、倍速播放，音量默认0%，即素材静音，0-100%比例是指视频素材音量相对于TTS播报音频的相对大小，100%是和TTS音量一致，倍速支持0.8-5倍的区间；0.1为上升下降的梯度单位，默认1倍速播放。

3.7字幕

点击底部“字幕”按钮可打开或关闭字幕，目前文本脚本支持字幕，音频脚本暂时不支持字幕，将在后续上线。

拖动字幕框或右侧可调整字幕位置、大小，默认位置在中间底部展示。

也可以选择合适的字号、字体、颜色、文字背景、对齐方式。

3.8贴纸水印

点击左侧菜单栏“贴纸”可选择平台提供的贴纸、水印素材。

点击中间预览窗口中的水印图层可移动位置、大小，右侧拖动图层进行图层上移、下移，复制、删除、可将素材应用到所有画布。

选择水印点击小铅笔图标可对水印进行编辑，修改后保存在“我的贴纸”中，后续可直接在此使用编辑后的水印贴纸。

自定义水印支持修改：

编辑文字内容
文字、背景图层旋转
背景图层的宽度、长度设置
文字颜色、字号、字体，背景颜色
文字、背景的透明度调整

3.9文字

选择“文字”可以应用系统推荐的花字样式，支持编辑文字内容、字体、字号、颜色、对齐方式

3.10文件导入

底部支持“文件导入”，可导入PDF格式的文件，大小不超过1GB，将PDF的图片样式一键导入到画布中；

如果文件中有视频需要一并提取导入，可以同时上传对应的pptx文件，提取的视频素材会还原到原画面中，pptx中的备注也会一一还原到对应画面中。

导入PPT或PDF文件可一键添加为多个片段，从同一份文件中导入的页面属于“同源素材”，点击其中某一个素材“应用到全局”按钮，与之同源的所有素材将在全局一键同步，包括以下同步：

置顶、置底操作
向上一层、向下一层操作
坐标改变（XY）操作
大小改变（HW）操作

若在图层树中进行图层调节不属于同源素材应用的范围

选中素材图层，点击“解绑同源素材”，则该素材变为普通素材图层，不再受同源素材的变更影响

3.11增加片段

底部支持添加多个片段，点击片段框右上角三个点支持复制、删除该片段。

3.12模板

推荐模板：平台将提供一些推荐的行业或特定场景的模板供选择

我的模板：也可将已经编辑好的循环重复利用率高的片段创建为“模板”，后续即可在“我的模板”中一键复用

四、视频生成

1、点击右上角“保存”，支持预览视频效果，“开始生成”即可生成视频。

2、页面自动跳转至创意管理中心>2D数字人视频管理列表，耐心等待几分钟生成视频，完成生成会产生相应的资源消耗。

如中途不需要生成视频了，当视频合成状态为资源校验中、排队中时，可直接点击停止生成中断视频生成。

当状态为生成中时，由于视频已经在排队生成中了，此时停止生成可能仍然会产生资源消耗，但是可以释放生成通道，加速其他视频生成。

3、创意管理中心中也可查看其他已生成的视频，点击视频查看生成效果。

创意管理中心可支持下载视频、复制为草稿、复制分享链接、视频重命名、删除视频等操作。

五、资源管理

右上角账号-资源管理中，可查看账号的剩余权益、消耗历史、购买历史。

六、数字人复刻

6.1 提交复刻任务

进入工具能力增强，选择通用工具，进入数字资产，可以看到复刻数字人栏目，支持在线复刻您独一无二的数字人私模。

点击开始定制，创建训练任务，支持不同场景的任务训练，复刻声音及形象和复刻声音，复刻声音及形象需要扣减资源，复刻声音目前限时免费

复刻声音及形象任务训练可分为2D离线合成数字人和实时互动数字人两种业务类型，以及2D数字人渲染【基础版】-单模型和2D数字人渲染【标准版】-单模型两种业务规格

若没有相关规格可以选择，点击“去购买”跳转下单页面，进行相关规格的资源购买即可

选择任务类型、应用场景、任务规格，确定即可创建训练任务，跳转至训练任务定制页面

任务类型1：复刻声音及形象

2D数字人复刻

进入2D数字人定制页面，页面左侧为形象复刻素材输入和选项确定，右侧展示的是模型素材案例和定制要求内容；

输入或选择以下选项：

视频比例：9:16竖屏、16:9横屏
模特名称：自定义名称，账号名称具有唯一性，不超过20个字符，名称格式示例：李静形象
形象性别：男性、女性
模特预览图：1080*1920或1920*1080，大小无限制，png格式，透明背景

2D数字人训练任务定制-基础版/标准版

需提供3段视频素材：

1、基底模型素材（提示：30s静默+自然讲话有手部动作的5-8分钟连续视频）——必填项

2、静默素材（提示：需要优化面部采集效果时，可选择上传静默素材辅助训练）——选填项

3、音标素材（提示：模特普通话不是非常标准时，可选择上传音标素材辅助训练）——选填项

上传的素材视频需满足以下要求：

视频时长：不限制时长要求，但基底模型素材建议上传5分钟以上训练效果更佳
尺寸：1080*1920、1920*1080
分辨率：基础版数字人1080p，标准版数字人4K
帧率：25帧/30帧
格式：MP4、MOV，推荐MP4
文件大小：单个文件不超过5G

模型素材案例展示有：基地模型素材案例、静默素材案例、音标素材案例，切换tab栏即可查看

具体素材需求可参考2D数字人私模拍摄SOP

以及同时上传复刻的声音素材

输入声音名称，账号名称具有唯一性，不超过20个字符，名称格式示例：李静声音
选择声音性别，男性、女性
确定声音语种，中文、英文

上传声音素材，支持拖拽或点击上传，声音素材需满足以下条件：

声道数：单/双声道
采样位数：16bit
采样率：大于16000hz
格式：MP3、WAV、M4A
文件大小：10MB以内
时长：大于30秒

交互数字人定制

进入交互数字人定制页面，页面左侧为形象复刻素材输入和选项确定，右侧展示的是模型素材案例和定制要求内容；

输入或选择以下选项：

视频比例：9:16竖屏、16:9横屏
模特名称：自定义名称，账号名称具有唯一性，不超过20个字符，名称格式示例：李静形象
形象性别：男性、女性
模特预览图：1080*1920或1920*1080，大小无限制，png格式，透明背景

交互数字人训练任务定制-基础版/标准版

需提供3段视频素材：

1、基底模型素材（提示：30s静默+自然讲话无手部动作的5-8分钟连续视频）——必填项

2、静默素材（提示：需要优化面部采集效果时，可选择上传静默素材辅助训练）——选填项

3、音标素材（提示：模特普通话不是非常标准时，可选择上传音标素材辅助训练）——选填项

上传的素材视频需满足以下：

视频时长：不限制时长要求，但基底模型素材建议上传5分钟以上训练效果更佳
尺寸：1080*1920、1920*1080
分辨率：基础版数字人1080p，标准版数字人4K
帧率：25帧/30帧
格式：MP4、MOV，推荐MP4
文件大小：单个文件不超过5G

模型素材案例展示有：基地模型素材案例、静默素材案例、音标素材案例，切换tab栏即可查看

具体素材需求可参考2D数字人私模拍摄SOP

以及同时上传复刻的声音素材

输入声音名称，账号名称具有唯一性，不超过20个字符，名称格式示例：李静声音
选择声音性别，男性、女性
确定声音语种，中文、英文

上传声音素材，支持拖拽或点击上传，声音素材需满足以下条件：

声道数：单/双声道
采样位数：16bit
采样率：大于16000hz
格式：MP3、WAV、M4A
文件大小：10MB以内
时长：大于30秒

任务类型2：复刻声音（限时免费）

开始定制选择“复刻声音”应用场景，不论选择2D离线数字人还是实时互动数字人，复刻声音均支持使用，无需选择应用场景，继续确定即可，该任务类型目前限时免费。

进入声音复刻页面，输入确定相关选项

输入声音名称，账号名称具有唯一性，不超过20个字符，名称格式示例：李静声音
选择声音性别，男性、女性
确定声音语种，中文、英文

上传声音素材，支持拖拽或点击上传，声音素材需满足以下条件：

声道数：单/双声道
采样位数：16bit
采样率：大于16000hz
格式：MP3、WAV、M4A
文件大小：10MB以内
时长：大于30秒

6.2查看复刻任务

在提交复刻任务下方，可查看历史复刻任务列表，管理员可查看到自己的以及其他子账号提交的复刻任务详情，其他子账号互相之间数据隔离，只能看到自己的任务。

详情中支持查看当前任务的详细明细，以及审核进度和任务进度。

若有收获，就点个赞吧