一、登录
登录磐曦智创平台:https://imarketing.console.aliyun.com/
选择2D数字人>视频生成进入
二、权限管理
主账号设置管理员和普通用户身份,并给对应账号配置模型权限、数据权限、功能权限。
1.普通用户权限:管理员可对普通用户授权可用的私模形象和声音,并查看每个普通用户当前已授权的可用形象和声音数量。
2.管理员权限:
数据权限:可设置管理员账号下产生的数据是否对其他账号可见可使用,包括项目、数字人协议、素材/贴纸/背景、画面模板、知识库、智能体是否与所有普通用户共享,普通用户相互之间产生的数据是独立隔离的。
功能权限:可对所有普通用户开启/关闭功能权限,包括复刻形象及声音、声音复刻(限免功能)
3、资源权限:
管理员账户可针对不同业务,对某个子账号进行对应的资源量控制,也可查看每个子账号当前的可用最大资源量和已使用资源量。
设置资源量:当前页面可查看主账号可用公共资源数剩余量,根据该剩余量可限制某个子账号最大可使用的资源量,分配的可用最大资源用量数值,不得超过主账号的资源用量。
修改资源量:可对已编辑过的配置进行修改,其中追加和减少表示在当前配置的总量上进行增减,当前子账号已有限制最大资源量时,再次修改,需要大于等于已使用/已占用资源量
取消限制:即取消某个子账号最大可用资源量的限制,该子账号可以使用主账号公共资源池中的所有资源。
4、配置记录:
管理员在配置记录中可查看对某个子账号的配置记录,以及对应操作人。
三、视频制作
(一)、2D数字人视频制作
制作视频前需准备以下素材
1.脚本(支持文本和音频)
2.主播(支持公模或定制化私模)
3.声音(支持公模声音或定制化私模声音)
4.字幕(一键开关)
5.背景素材(提供选择)
6.贴纸素材(非必填,提供选择)
7.视频素材(非必填)
8.水印(非必填,提供选择)
9.PPT/PDF导入(非必填,提供选择)
3.1新建视频
支持9:16竖屏、16:9横屏
3.2主播形象
选择最终视频生成的主播形象,支持公模、私模的选择,拖拽移动或者右侧可进行位置调整。
2D数字人-静态数字人:即背景可替换的2D数字人
2D数字人-动态实景数字人:即背景为动态实景且不可替换的2D数字人
照片数字人:即提供一张照片,可智能驱动嘴形播报的数字人
1、支持选择平台预置的照片
2、支持自定义上传照片,上传图片后生成私模。
数字人名称:自定义,主账号下唯一,不超过20字符。
性别:上传时填写数字人性别
格式:jpg、jpeg、png、bmp
尺寸:1:1(适用于头像图片,将对应生成512*512的头像视频);3:4(适用于半身像图片,将对应生成512*704的半身像视频)
图像分辨率:图像最小边长≥400像素,最大边长≤6000像素
脸部区域:要求支持人物头像、半身像,不支持全身像
脸部类型:要求支持真人脸、动漫脸,不支持动物脸
脸部角度:要求正脸、人脸不能过小、面部朝向无严重偏移、脸部无遮挡嘴部完全透出
图片内容:要求画面中必须有一个人,不支持多个人,不能过暗
3、支持选择平台AI人物图:复用营销图文-人物图生成的功能,需扣减账号下对应资源,当前账号下有可用的资源可直接选择,同时也提供制作入口。
照片数字人选择后可对图片进行编辑处理:
支持对上传的本地图片/平台AI生图的图片/默认图进行裁剪尺寸、左右水平翻转,不改变平台提供的原始图和账户中生成的已有图,只是基于此图进行了处理并制作照片数字人
AI去背景:可选择是否需要平台帮助自动扣除背景,默认关闭
处理完成照片数字人后,创建照片数字人,输入数字人名称、性别,选择照片类型,如处理后的图为透明背景则选择“透明背景数字人”,如处理后是带背景的则选择“常规背景照片数字人”,此处注意:请谨慎选择对应照片类型,会影响最后生成的照片数字人效果。
创建照片数字人可在编辑器右侧,对照片数字人设置运动幅度,当前支持3种:适中、平静、活泼,默认为适中。
适中:默认动作模板,头部动作幅度适中,适用于多种场景。
平静:人物表现平静,头部动作幅度较小,推荐用于播报等场景。
活泼:人物表现活泼,头部动作幅度较大,推荐用于演唱等场景。
完成以上照片数字人的操作后,编辑器中增加背景、贴纸、脚本、素材等其他操作与2D数字人一致。
3.3脚本编辑
3.3.1文本驱动
2D数字人支持输入文本:10字<x<1500字
照片数字人支持输入文本:10字<x<250字
支持导入脚本:可在左下方下载“脚本模板”,单次支持上传1个EXCEL格式的文件,上传后根据片段个数自动添加片段,并按脚本先后顺序,将对应脚本内容填写到脚本区中,每个片段遵循10字<x<1500字,注意请勿修改模板中的标题。
1.已审核脚本:将覆盖已有片段的脚本,脚本不支持二次修改
2.未审核脚本:将会增加带脚本的空白片段,脚本支持二次修改
支持智能写稿:通过AI生成文案
AI写稿支持引用自定义知识库,知识库作为一个结构化的数据存储系统,能够为AI模型提供丰富、准确的学习材料。通过学习知识库中的数据,AI模型能够不断提升其理解、推理和决策的能力,从而在实际应用中更加高效和精准。
1.用户在工具能力增强-知识库中创建多种不同知识库类型。
2.在数字人编辑器-AI脚本生成时可以引用上面创建的知识库,用户可根据自身需求勾选需要的单个或同时多个知识库,也可一键全选,如果未选择知识库,则默认基于阿里云大模型算法智能生成文案。
3.3.2音频驱动
拖拽音频或点击上传文件
格式:mp3、wav
2D数字人时长:<30min,照片数字人时长:<60s
3.3.3管理变音
1、点击脚本底部“管理变音”或顶部“菜单栏工具能力增强-数字人工具能力”均可进入变音管理界面。
2、在变音管理界面中添加变音,支持音标替换、拼音替换、文本替换三种类型,可对添加的变音进行编辑、删除操作,此处注意:若删除对应的变音,脚本内已引用的变音会同步失效。
3、脚本中也支持直接拼音替换、文本替换、划词连读、停顿(0.5s、1s、2s、3s、4s、5s、6s、7s、8s、9s、10s)、试听等功能。
拼音变音
如脚本中有多音字需要变音,鼠标选中该字符,上部点击拼音替换,输入原字符和需要替换的拼音,拼音格式为:拼音及数字1-5;1-4为声部一到四声,5为轻声,例如:藏 zang4,此处原字符最多支持10种拼音变音。
此处注意:若删除对应的拼音读法,脚本内已引用的变音会同步失效。
添加完替换的拼音以后,即可在脚本原文中选中该字符替换拼音读音。
文本变音
如脚本中有多音字需要变音,鼠标选中该字符,上部点击文本替换,输入原字符和变音后的读法文本,此处一个原字符最多支持10种变音,支持删除、编辑修改。
此处注意:若删除对应的文本读法,脚本内已引用的变音会同步失效。
添加完替换的文本以后,即可在脚本原文中选中该字符替换文本读音。
音标变音
支持参考底部学术音标表添加音标变音,添加完音标后,在脚本中选中某单词选择音标替换。
此处注意:若删除对应的音标读法,脚本内已引用的变音会同步失效。
3.4主播声音
选择主播声音:支持定制声音、公共声音,右上角小耳机图标可以试听声音,模特性别与声音不匹配的不支持选择
选择某种声音后,支持全局应用主播声音,可全片段应用所选声音
注意:选中某声音应用全局,若全局片段中存在多种性别的主播,女性声音只可应用于女性主播,男性声音只可应用于男性主播,全局应用的声音性别和主播性别不匹配的片段则声音不生效,或者某个片段的主播未绑定当前选择的声音,则该片段也无法应用
调整声音语速:支持0.8倍、0.9倍、1倍、1.1倍、1.2倍、1.3倍、1.4倍、1.5倍、2倍
3.5背景
推荐背景中支持选择已有的背景素材
我的背景中支持本地上传素材,支持jpg、png格式,不超过10MB
点击左侧背景选择即可添加成功,在中间预览窗口点击背景按键盘delete键可删除背景图层。
透明背景
背景栏右上角“透明背景”开关,打开透明背景对所有画面生效,动态实景数字人不支持使用透明背景。
需要注意:透明视频开启后不支持选择背景,如此前已选好了背景,开启时保留,但页面上变为透明样式,不支持前置素材,包括图片视频贴纸、水印、文字;以及调整数字人大小和位置;默认生成.webm格式的视频;
关闭后原选择的背景还能继续使用,关闭透明背景,默认生成.mp4文件;
3.6素材
素材是指美化视频的贴片,支持图片和视频素材的本地上传,调整位置及大小。
图片素材:支持jpg、png格式,大小不超过10MB
视频素材:支持mp4格式,大小不超过1GB
上传后点击素材即可添加成功,在中间预览窗口点击素材,按住键盘delete键删除,右侧拖动图层进行图层上移、下移,复制、删除、可将素材应用到所有画布。
视频素材支持预览视频、音量调节、倍速播放,音量默认0%,即素材静音,0-100%比例是指视频素材音量相对于TTS播报音频的相对大小,100%是和TTS音量一致,倍速支持0.8-5倍的区间;0.1为上升下降的梯度单位,默认1倍速播放。
3.7字幕
点击底部“字幕”按钮可打开或关闭字幕,目前文本脚本支持字幕,音频脚本暂时不支持字幕,将在后续上线。
拖动字幕框或右侧可调整字幕位置、大小,默认位置在中间底部展示。
也可以选择合适的字号、字体、颜色、文字背景、对齐方式。
3.8贴纸水印
点击左侧菜单栏“贴纸”可选择平台提供的贴纸、水印素材。
点击中间预览窗口中的水印图层可移动位置、大小,右侧拖动图层进行图层上移、下移,复制、删除、可将素材应用到所有画布。
选择水印点击小铅笔图标可对水印进行编辑,修改后保存在“我的贴纸”中,后续可直接在此使用编辑后的水印贴纸。
自定义水印支持修改:
编辑文字内容
文字、背景图层旋转
背景图层的宽度、长度设置
文字颜色、字号、字体,背景颜色
文字、背景的透明度调整
3.9文字
选择“文字”可以应用系统推荐的花字样式,支持编辑文字内容、字体、字号、颜色、对齐方式
3.10文件导入
底部支持“文件导入”,可导入PDF格式的文件,大小不超过1GB,将PDF的图片样式一键导入到画布中;
如果文件中有视频需要一并提取导入,可以同时上传对应的pptx文件,提取的视频素材会还原到原画面中,pptx中的备注也会一一还原到对应画面中。
导入PPT或PDF文件可一键添加为多个片段,从同一份文件中导入的页面属于“同源素材”,点击其中某一个素材“应用到全局”按钮,与之同源的所有素材将在全局一键同步,包括以下同步:
置顶、置底操作
向上一层、向下一层操作
坐标改变(XY)操作
大小改变(HW)操作
若在图层树中进行图层调节不属于同源素材应用的范围
选中素材图层,点击“解绑同源素材”,则该素材变为普通素材图层,不再受同源素材的变更影响
3.11增加片段
底部支持添加多个片段,点击片段框右上角三个点支持复制、删除该片段。
3.12模板
推荐模板:平台将提供一些推荐的行业或特定场景的模板供选择
我的模板:也可将已经编辑好的循环重复利用率高的片段创建为“模板”,后续即可在“我的模板”中一键复用
四、视频生成
1、点击右上角“保存”,支持预览视频效果,“开始生成”即可生成视频。
2、页面自动跳转至创意管理中心>2D数字人视频管理列表,耐心等待几分钟生成视频,完成生成会产生相应的资源消耗。
如中途不需要生成视频了,当视频合成状态为资源校验中、排队中时,可直接点击停止生成中断视频生成。
当状态为生成中时,由于视频已经在排队生成中了,此时停止生成可能仍然会产生资源消耗,但是可以释放生成通道,加速其他视频生成。
3、创意管理中心中也可查看其他已生成的视频,点击视频查看生成效果。
创意管理中心可支持下载视频、复制为草稿、复制分享链接、视频重命名、删除视频等操作。
五、资源管理
右上角账号-资源管理中,可查看账号的剩余权益、消耗历史、购买历史。
六、数字人复刻
6.1 提交复刻任务
进入工具能力增强,选择通用工具,进入数字资产,可以看到复刻数字人栏目,支持在线复刻您独一无二的数字人私模。
点击开始定制,创建训练任务,支持不同场景的任务训练,复刻声音及形象和复刻声音,复刻声音及形象需要扣减资源,复刻声音目前限时免费
复刻声音及形象任务训练可分为2D离线合成数字人和实时互动数字人两种业务类型, 以及2D数字人渲染【基础版】-单模型和2D数字人渲染【标准版】-单模型两种业务规格
若没有相关规格可以选择,点击“去购买”跳转下单页面,进行相关规格的资源购买即可
选择任务类型、应用场景、任务规格,确定即可创建训练任务,跳转至训练任务定制页面
任务类型1:复刻声音及形象
2D数字人复刻
进入2D数字人定制页面,页面左侧为形象复刻素材输入和选项确定, 右侧展示的是模型素材案例和定制要求内容;
输入或选择以下选项:
视频比例:9:16竖屏、16:9横屏
模特名称:自定义名称,账号名称具有唯一性,不超过20个字符,名称格式示例:李静形象
形象性别:男性、女性
模特预览图:1080*1920或1920*1080,大小无限制,png格式,透明背景
2D数字人训练任务定制-基础版/标准版
需提供3段视频素材:
1、基底模型素材(提示:30s静默+自然讲话有手部动作的5-8分钟连续视频)——必填项
2、静默素材(提示:需要优化面部采集效果时,可选择上传静默素材辅助训练)——选填项
3、音标素材(提示:模特普通话不是非常标准时,可选择上传音标素材辅助训练)——选填项
上传的素材视频需满足以下要求:
视频时长:不限制时长要求,但基底模型素材建议上传5分钟以上训练效果更佳
尺寸:1080*1920、1920*1080
分辨率:基础版数字人1080p,标准版数字人4K
帧率:25帧/30帧
格式:MP4、MOV,推荐MP4
文件大小:单个文件不超过5G
模型素材案例展示有:基地模型素材案例、静默素材案例、音标素材案例,切换tab栏即可查看
具体素材需求可参考2D数字人私模拍摄SOP
以及同时上传复刻的声音素材
输入声音名称,账号名称具有唯一性,不超过20个字符,名称格式示例:李静声音
选择声音性别,男性、女性
确定声音语种,中文、英文
上传声音素材,支持拖拽或点击上传,声音素材需满足以下条件:
声道数:单/双声道
采样位数:16bit
采样率:大于16000hz
格式:MP3、WAV、M4A
文件大小:10MB以内
时长:大于30秒
交互数字人定制
进入交互数字人定制页面,页面左侧为形象复刻素材输入和选项确定, 右侧展示的是模型素材案例和定制要求内容;
输入或选择以下选项:
视频比例:9:16竖屏、16:9横屏
模特名称:自定义名称,账号名称具有唯一性,不超过20个字符,名称格式示例:李静形象
形象性别:男性、女性
模特预览图:1080*1920或1920*1080,大小无限制,png格式,透明背景
交互数字人训练任务定制-基础版/标准版
需提供3段视频素材:
1、基底模型素材(提示:30s静默+自然讲话无手部动作的5-8分钟连续视频)——必填项
2、静默素材(提示:需要优化面部采集效果时,可选择上传静默素材辅助训练)——选填项
3、音标素材(提示:模特普通话不是非常标准时,可选择上传音标素材辅助训练)——选填项
上传的素材视频需满足以下:
视频时长:不限制时长要求,但基底模型素材建议上传5分钟以上训练效果更佳
尺寸:1080*1920、1920*1080
分辨率:基础版数字人1080p,标准版数字人4K
帧率:25帧/30帧
格式:MP4、MOV,推荐MP4
文件大小:单个文件不超过5G
模型素材案例展示有:基地模型素材案例、静默素材案例、音标素材案例,切换tab栏即可查看
具体素材需求可参考2D数字人私模拍摄SOP
以及同时上传复刻的声音素材
输入声音名称,账号名称具有唯一性,不超过20个字符,名称格式示例:李静声音
选择声音性别,男性、女性
确定声音语种,中文、英文
上传声音素材,支持拖拽或点击上传,声音素材需满足以下条件:
声道数:单/双声道
采样位数:16bit
采样率:大于16000hz
格式:MP3、WAV、M4A
文件大小:10MB以内
时长:大于30秒
任务类型2:复刻声音(限时免费)
开始定制选择“复刻声音”应用场景,不论选择2D离线数字人还是实时互动数字人,复刻声音均支持使用,无需选择应用场景,继续确定即可,该任务类型目前限时免费。
进入声音复刻页面,输入确定相关选项
输入声音名称,账号名称具有唯一性,不超过20个字符,名称格式示例:李静声音
选择声音性别,男性、女性
确定声音语种,中文、英文
上传声音素材,支持拖拽或点击上传,声音素材需满足以下条件:
声道数:单/双声道
采样位数:16bit
采样率:大于16000hz
格式:MP3、WAV、M4A
文件大小:10MB以内
时长:大于30秒
6.2查看复刻任务
在提交复刻任务下方,可查看历史复刻任务列表,管理员可查看到自己的以及其他子账号提交的复刻任务详情,其他子账号互相之间数据隔离,只能看到自己的任务。
详情中支持查看当前任务的详细明细,以及审核进度和任务进度。
若有收获,就点个赞吧