灵境数字人选择与定制流程

本文介绍灵境数字人的公共模特与定制流程。

开通条件

当前功能正处于邀测阶段,您需要将以下信息提交工单,阿里云将告知您是否具备使用该功能的资质:

  • 完成阿里云企业级认证的客户。

  • 提供工单中提供以下基础信息:

    • 阿里云账号UID:1XXXXXXXXXXXX

    • 业务场景:例,在AI面试场景中使用数字人面试官形象

    • 业务规模:例,10万分钟/月

    • 业务发生地:中国内地/海外

    • 是否定制形象(不定制则使用公模):是/否

产品定价

产品

描述

单位

定价

云渲_2D数字人实时渲染推流

2D数字人云端实时渲染并推流;优势是回答内容泛化性好,缺点云端成本高,并且有延时消耗。

元/路/月

2,900.00

形象定制

定制数字人形象,完成定制后提供文本,即可生成2D数字人片段,当命中用户问题时可用于推流播放。

元/个

10,000.00

数字人公共模特

以下形象可直接选择使用,具体参数向您的客户经理获取。

image如需定制请参考下文。

定制必读

  • 关于数字人效果和质量:

    • 真人形象复刻,即形象「一比一复刻」。因此,请您务必确保模特及录制素材的质量。请您严控模特质量,并参照样例视频,提前做些练习。在拍摄现场,也请根据要求,邀请专业人士把控现场灯光、布景、器材等效果。

    • 若您的模特为素人(即非播音主持、表演专业出身),请务必参照样例视频,提前做足训练,以确保表现力效果佳。

  • 关于是否需在绿幕环境下录制:若您需要更换视频背景,请在绿幕环境下录制;若您不需要更换视频背景,只需要修改人物口型,可在实景环境中录制。

  • 关于是否要克隆音色:若您还有克隆真人音色需求,请提前与客户经理沟通,并参照音色克隆标准,采集音频。

  • 关于流程:

    • 正式拍摄前,请将定妆照(含妆造/服装等)、试录视频发给您的客户经理审核,以免影响效果。

    • 拍摄完成后,请务必检查好素材、效果后交付,平台不承担任何后期处理工作。

交付素材样例

棚拍数字人

实景数字人

一、前期准备

1.环境

image

  • 光线:保证光线稳定均匀,模特面部清晰,无干扰性阴影、不过曝不欠曝。

  • 噪音:无噪音、无回响、无混声,现场不能有施工噪音、鸣笛声、其他人声、有规律的强噪音等,需确保模特的声音能盖住其他噪音。

  • 环境:取决于是否需更换视频背景,若无需更换视频背景,满足上述条件即可。若需更换,还需满足以下条件:

    • 空间:8平面以上,建议模特离绿幕1.8米以上。

    • 绿幕:平整无褶皱、颜色均匀,专业影棚的刷绿无影墙最佳。若需拍摄全身,地面也需铺设绿幕。若需自搭拍摄场地,请购买纯色绿布,并确保绿布表面颜色均匀、无褶皱。推荐尺寸:4米 x 6米及以上。

    • 黑布:建议准备黑布,在拍摄的时候放在地上,以避免模特身上反绿。

    • 绿幕架:若需自搭拍摄场地,需购买绿幕架或将绿布贴在墙面上。若选择购买绿幕架,请确保宽度超过2米、高度超过2米。

2.设备

image

  • 相机:建议使用专业相机(电影机/单反/微单相机等),需拍摄分辨率4K、帧率25fps及以上视频;焦段推荐55mm,光圈f5.6。

  • 收音设备:请使用指向性收音设备,如小蜜蜂、Sony、rode/罗德等,可增加防风棉衣或防喷罩。

  • 三脚架:用于固定相机,录制过程中请确保相机无位移,画面稳定、不失焦、无抖动。

  • 提词器:请使用专业提词设备或手机提词软件,务必确保模特眼神全程注视镜头。

3.模特

image

模特形象:真人形象复刻,即真人形象的一比一还原,最终效果取决于模特质量和录制效果。为确保最终效果,在形象选型阶段,请您严格把控模特质量!!强烈建议您选择五官端正、体态良好的模特形象。据以往定制经验,请您严格对模特的以下情况做好把关与筛选:

  • 嘴型:播报时是否存在嘴歪、嘴角倾斜等情况。

  • 牙齿:播报时牙齿是否整齐、是否有龅牙、牙齿缺损的等情况。

  • 眼睛:是否存在大小眼、眨眼频率异常等情况。

  • 肩膀:是否存在高低肩。

  • 体态:姿势是否端庄、是否存在耸肩/塌腰、脖子前倾等影响效果的情况。

  • 腿型:是否存在X型/O型腿等不美观现象。

  • 身材:身材是否匀称、上镜比例是否协调。

  • 脸型:是否存在明显不对称情况。

  • 眉毛:播报时是否存在异常挑眉、眉毛明显不对称情况。

4.妆造

  • 妆容:面部干净无油光,可带淡妆。拍摄当天建议携带补妆工具,如控油散粉、口红、粉底等。

  • 发型:发型边缘整齐,无飘散的发丝,建议使用发胶固定碎发。请避免头发甩动,如马尾、刘海等。头发请勿遮挡面部、脖颈。若为披肩长发,建议将头发披散并固定在肩后。发色请尽量避免高饱和度的发色,如红色、浅黄色、绿色等。头发不要飘在脸颊两边,不要遮脸。

  • 服装:平整无褶皱、边缘整洁,不穿与绿幕颜色相近、高领、密集细条纹/方格/波点/反光材质/半透丝纱/蕾丝等图案或材质的衣服。

  • 配饰:请不要佩戴耳饰、发饰等。建议戴隐形眼镜,若需要戴镜片眼镜,请确保镜头中无反光、眼部清晰,不要佩戴大框眼镜。避免高反光、镜面材质配饰,如手链/项链/墨镜/皮鞋等。

  • 表现力:与实际应用场景状态一致即可。建议找有经验、专业背景的模特,如主播、播音主持专业模特等。

  • 其他:尽量不要有胡子,尤其是络腮胡。

5.语料

  • 请准备3000字左右的播报语料,建议使用场景相关语料,如直播带货场景使用带货文案、培训场景使用课件讲稿等。需确保文案内容不重复、可支持正常语速连续口播10分钟以上。

  • 若对语料无要求,可使用平台样例文稿:

二、录制内容

1.自然播报(5分钟)

关键词:一镜到底、通用手势、开机后静默。

  • 尺寸:竖屏9:16或横屏16:9。

  • 背景:若您需更换数字人播报视频的背景,请使用绿幕录制;若您无需更换数字人视频背景,可使用实景拍摄。

  • 姿势:站/坐姿均可,取决于业务实际使用诉求。

  • 动作:通用手势动作,请勿出现于内容无关的节奏性动作(如用手指比1、2、3,打招呼/拜拜等强语义手势)。动作间间隔8-10s,中间回到idle态,请不要连续做动作

  • 录制内容:根据提词器提示,录制5分钟自然播报视频。神态保持自然,与业务实际应用场景保持一致,并搭配通用手势动作。播报时需语速适中、口型饱满、吐字清晰。开机后5秒需保持闭嘴静默,5秒后开始播报。要求一镜到底,不允许后期拼接剪辑,视频中不允许出现画外音提醒、模特出错、第三人出镜等。示例:

2.静止播报(选录,20分钟)

说明

用于收集形象口型数据,利于提升数字人口型效果!建议录制。

  • 尺寸:竖屏9:16或横屏16:9。

  • 背景:若您需更换数字人播报视频的背景,请使用绿幕录制;若您无需更换数字人视频背景,可使用实景拍摄;——同一个数字人形象,“自然播报”与“静止播报”部分请保持一致。

  • 姿势:站/坐姿均可,取决于业务实际使用诉求;——同一个数字人形象,“自然播报”与“静止播报”部分请保持一致。

  • 录制内容:根据提词器提示阅读语料,需确保口型饱满、吐字清晰、语速适中。句与句之间需停顿,大约3秒钟左右。录制时重点关注发音与口型,可以不带表情和手势动作。要求一镜到底,不允许后期拼接剪辑,视频中不允许出现画外音提醒、模特出错、第三人出镜等。

三、录制流程

1.试录

关键词:位置适中、画面及语速适中、收音正常、形象符合要求

正式录制前,建议试拍一段,需确保:

image

  • 位置:模特在画面中央,比例适中,占画面宽度三分之一最佳。人物不出画框,做手势动作时也不出画框。

  • 提词器:速度与模特语速保持一致。位于镜头正下方,模特眼神正视镜头,读词时眼神不会斜视、仰视、俯视、乱瞟。

  • 收音:收音正常,环境无噪音、画外音,视频音画同步。

  • 形象:无绿色元素,若条件允许可提前抠图确认。发型边缘整洁、无散乱的发丝,播报时发型固定。表情及动作自然不僵硬,表现力及状态符合场景要求。

  • 其他:画面无异常反光,如镜片、配饰、镜面等反光。

在正式拍摄前,请将定妆照、试录视频发给您的客户经理做审核,以免影响定制效果。

2.正式拍摄

关键词:一镜到底、开头结尾静默、通用手势、该闭嘴时一定闭嘴。

2.1自然播报(5分钟)

  • 第一步:静默5秒。开机后请保持嘴巴闭合,静默5秒。手自然放置在身前,直视镜头即可。

  • 第二步:自然播报5分钟。开始滚动提词器,模特眼神直视镜头,开始录制口播视频。注意事项:

    • 请保持口型饱满、吐字清晰。

    • 模特头部、身体保持相对稳定,不可有大幅度位移。

    • 可搭配通用手势动作,但请避免做有明确指向性含义的动作,如点赞、比数字等。

    • 动作幅度不宜过大,不要超过肩膀、不要遮挡面部、不能出画框。

    • 避免舔嘴、吐舌、噘嘴等夸张动作。

    • 偶尔读错语料没关系,继续往下读即可。

    • 段与段之间需静默,请保持闭嘴。

以上录制请一镜到底,不允许后期拼接剪辑、画外音、模特动作出错、第三人出镜等错误。若出现此类错误,请重新录制。

2.2静止播报(20分钟)

说明

用于收集形象口型数据,利与提升数字人口型效果!建议录制。

  • 第一步:收自然放置在身前,直视镜头。

  • 第二步:始滚动提词器,眼神直视镜头,开始录制静止播报素材。注意事项:

    • 请保持口型饱满、吐字清晰。

    • 模特头部、身体保持相对稳定,不可有大幅度位移。

    • 句子之间需闭嘴,间隔3秒后再读下一句。

    • 无需搭配手势动作和表情。

    • 偶尔读错语料没关系,继续往下读即可。

    • 避免舔嘴、吐舌、噘嘴等夸张动作。

以上录制请一镜到底,不允许后期拼接剪辑、画外音、模特动作出错、第三人出镜等错误。若出现此类错误,请重新录制。

四、后期处理

关键词:交付内容纯净、适度美颜、素材检查。

  • 剪辑:若视频首位存在画外音、画面抖动、模特张嘴、第三人出镜等情况,请剪辑掉不需要的部分。

  • 美颜:为保障效果,可适当对形象做美颜处理,推荐使用剪映、达芬奇等软件。但请勿过度瘦脸、大眼或改变五官,导出时请注意视频清晰度和分辨率。

  • 抠图:若您需更换数字人播报视频的背景,请自行抠图,并交付带透明底通道的视频文件。

【重要】素材检查:请参照下述检查项,逐一确认素材是否达标,请务必达标后交付!

-内容结构符合要求。
---自然播报 5min。
---静止播报 20min。
-内容。
---自然播报视频符合录制内容、流程中的要求。
---静止播报视频符合录制内容、流程中的要求。
-绿幕铺满整个画面,绿幕背景无污渍、异常色块等。
-模特及动作始终不出画框。
-模特面部光照均匀,五官、人脸、脖子轮廓清晰。
-模特眼神始终看向镜头,无乱瞟、斜视、仰视、俯视等情况。
-手势动作无指向性含义。
-静默片段嘴巴必须闭合,不允许张嘴、嘴巴张一半。
-发型边缘整齐,无飘散的发丝,发型固定。
-画面无异常反光,如眼镜片反光等。
-无后期拼接剪辑,无明显跳帧。
-画面稳定,无异常抖动、失焦。
-无明显瘦脸、大眼等影响五官的特效。
-收音正常,无混响、背噪等。
-横屏16:9或者竖屏9:16。

五、交付标准

关键词:格式与大小、命名、阿里云盘。

交付物

内容

交付方式

视频文件

  • 格式:MP4MOV。若您需要更换数字人播报视频的背景,请自行抠图,并交付MOV格式带透明底通道的视频文件。

  • 大小:不超过10GB。

  • 命名:公司名称-形象名称-性别-姿态,如 阿里云-灵秀-女-坐姿。

说明

请务必对照“四、后期处理-素材检查”中检查项,完成检查后交付。

阿里云盘或钉钉直接传输。

六、交付周期

形象与音色定制好后,会在钉群与您确认验收。验收z无问题后,发布到平台供您使用。

  • 基础定制:1-2天交付。

  • 高精定制:3-5天交付。

七、常见问题与应对措施

问题

示例图

解决办法

灯光

背光,且光源过强导致形象边缘不清晰。

image

使用正面光源,且光源不要出现在镜头里。

欠曝,面部及人物整体过暗。

image

提高灯光亮度。

过曝,且光源太硬,导致面部细节缺失。

image

降低灯光亮度,并适当使用柔光降低光线硬度。

侧光不足,面部阴影严重。

image

调整侧光。

后期

磨皮严重,面部细节缺失。

image

磨皮轻一些,保留面部细节。

表现力

动作过肩遮挡面部。

image

请确保手势不过肩,不要遮挡面部。

反绿

面部反射绿幕颜色。

image

  • 调整面光(调整打光版)。

  • 地面放置黑布。

  • 或通过后期去绿。

衣服反绿。

image

  • 地面放置黑布。

  • 尽量不穿缎面、亮面服装。