1 进入视频合成页面
进入数字人开放平台控制台,点击视频合成-新建视频,选择2D形象进入视频合成页面。
2 视频设置
2.1 数字人设置
点击数字人,可在此重新选择数字人形象。
2.2 声音
点击声音,可选择数字人播报的音色并调整音色对应的音量、语速和音调,目前平台提供四个类别的音色:男声、女声、童声以及方言。
2.3 背景图
点击背景图,可选择平台内置的背景,包括透明背景;同时可上传自定义背景,上传时请注意背景图大小要求。
2.4 字幕
点击字幕,根据需要打开或者关闭字幕开关,可调整字幕样式,如字体、字号、字体颜色、描边颜色。
2.5 调整数字人在画面中的大小以及位置
在右侧的预览画面中,通过鼠标拖拽数字人,可移动数字人,调整其在画面中位置;另外拖拽画面下方的缩放条,可以缩放数字人,调整数字人的大小。
3 播报内容输入
3.1 文本输入
选择文本输入,您可在文本框中输入希望数字人播报的文本来制作视频。
文本输入框集成了语音合成的编辑器功能,可在该编辑器中对语音合成进行人工的调整,例如标注多音字、标注文本读法、标注数值读法等,详见下表。
功能 | 子功能 | 备注 | 操作方法 |
多音 | / | / | 弹出浮层高亮多音字,逐一标注 |
文本 | 人名 | 姓氏自动匹配、连续 | 划选文字后选择读法 |
地址 | 示例:2单元301读作二单元三零幺 | ||
标点符号 | 读标点本身发音 | ||
ID | 读字母和数字 | ||
日期 | 示例:2019/10/21读作二零一九年十月二十日 | ||
时间 | 示例:01:13:43读作一点十三分四十三秒 | ||
计量单位 | 示例:mm读作毫秒 | ||
数值 | 读数值 | 示例:123读作一百二十三 | 划选数字文本后选择读法 |
读数字 | 示例:123读作一二三 | ||
读手机号 | 示例:13900001111 读作幺三九<停顿0.5s>零零零零<停顿0.5s>幺幺幺幺 | ||
英文 | 读字母 | 每个字母分开发音 | 划选英文文本后选择读法 |
连续 | / | 选中的文本连续发音 | 划选需要调整的文本 |
停顿 | 0.5s | 停顿0.5s | 在光标位置插入停顿 |
1s | 停顿1s | ||
2s | 停顿2s | ||
插入日期 | / | / | 在光标位置插入当前日期 |
插入时间 | / | / | 在光标位置插入当前时间 |
试听 | / | / | 划选需要试听的文本进行试听(需完成声音设置) |
3.2 音频输入
选择音频输入,您可上传本地的音频文件,为保证效果,请上传在安静环境下录制的播报人声。此时生成视频中的声音即为上传的音频。
4 生成视频
4.1 生成视频
点击生成视频,将根据输入的文本生成数字人播报的视频;视频生成时间根据输入的文本长度而定。生成好的视频会在视频管理中展示,可在该页面下进行视频的下载;平台支持生成MOV和MP4格式的视频,其中选择透明背景,生成的MOV视频可以直接在第三方剪辑软件中二次加工;而选择MP4格式将同时导出两个视频,一个为带黑灰色背景的视频,另一个为alpha通道视频,可在专业剪辑软件中通过遮罩功能去除原视频中的背景以获得透明背景的效果。需要注意的是,不管背景是否透明,选择生成MOV格式将会需要较长的渲染时间,且生成的视频也会较大。
4.2 存为草稿
点击存为草稿可将目前的设置和输入的文本存为草稿,草稿将在视频管理中展示,可以继续进入原草稿进行编辑。