自定义资产(形象/语音)创建教程
通义星尘平台数字人语音创建教程示例文档。
自定义资产(形象/语音)创建教程
星尘支持数字人/语音服务能力,用户可在星尘平台创作属于自己的实时交互数字人。
目前数字人服务提供“照片分身、2D数字人、3D数字人”三种类型,配置项包括:数字人类型、形象、背景、语音。
用户可选择官方预设或自定义的内容作为配置项。
以下为自定义资产(形象、语音)的教程内容。
自定义形象(数字人)资产
照片数字人
照片数字人服务基于用户上传的照片生成真实感的数字分身。用户通过点击上传按钮,选择一张正面人像照片上传,系统可快速处理照片,生成用户的数字分身,并提供体验服务。
照片数字人用于角色扮演、游戏、广告等领域。此类数字人通常保留了真实/卡通人物的特征,利用合成技术使其在不同背景中呈现。
具体创作教程如下:
我的资产-照片数字人
用户登录星尘平台,在我的空间-我的资产一栏,选中照片数字人,点击创建资产,进入创建页面。
填写基础信息
创建页面填写数字人基础信息,包括数字人名称、性别、备注信息等,以官方角色“季星”为例,创作过程如下:
上传形象素材
上传数字人形象素材,可点击点击或拖拽文件至此处上传。上传时请遵循官方要求和建议,不得在未经授权的情况下使用他人照片。
开始生成
上传完成如下图示例,支持删除再次上传。在右上角点击创建,即可生成数字人预计耗时约21分钟,可以在我的空间-我的资产中查看生成状态。
生成状态查询
已创作的数字人可在我的空间-我的资产中查看;若数字人还在生成中则会显示等待时间,若生成完成,则可修改数字人的基本信息及使用配置给自己的智能体使用。
完成创建
生成完成的照片数字人,支持再次编辑(仅可编辑修改数字人基础信息,无法修改形象),可在我的空间-我的资产中点击使用,配置给您创建的智能体。
2D数字人
2D数字人是以真实人物为基础,利用视频数据生成的真人数字人,主要用于客服、助理、主播和社交媒体等领域,能够增强互动性和视觉吸引力。
具体创作教程如下:
我的资产-2D数字人
用户登录星尘平台,在我的空间-我的资产一栏,选中2D数字人,点击创建资产,进入创建页面。
填写基础信息
在创建页面左侧,填写创建2D数字人的基础信息,如数字人头像、名称、性别、备注信息等。
视频素材要求
通过视频生成2D数字人,对视频动作、环境、角度等均有要求,请仔细查看《2D交互数字人拍摄注意事项》,确保素材符合要求。
上传视频素材
2D数字人视频上传请按照官方设定的要求文件进行上传,文件格式支持:MP4、MPEG、WMV、AVI、MOV,视频大小不超过:100mb,视频时长:建议3分钟以内,这里以官方2D数字人Yumi创建为例,参考上传生成。(未点击创建之前视频素材均支持删除再上传)
开始生成
上传完成后,点击创建按钮,开始生成数字人需耗时约15分钟,您可以在我的空间-资产中查看生成状态。
完成创建
生成完成的2D数字人,支持再次编辑(仅可编辑修改数字人基础信息,无法修改形象),可在我的空间-我的资产中点击使用,配置给您创建的智能体
3D数字人
3D数字人目前仅支持定制,可添加官方群,向管理员了解详情!
星尘钉钉官方群:
自定义语音资产
星尘语音合成基于cosyvoice能力,实现完成语音的复刻,该能力无需训练过程,用户提供时长较短的音频样本,即可迅速生成高度相似且听感自然的定制语音。
我的资产-语音
用户登录星尘平台,在我的空间-我的资产一栏,选中语音,点击创建资产,进入创建页面。
填写基础信息
在创建页面,首先填写语音资产的基础信息,包括语音名称、性别、语言类型、语音描述等信息。
录制/上传语音素材
基础信息填写完成,开始上传语音合成素材,平台支持在线录制和上传本地音频文件,若选用录制方式,请您在平台上录制一份20s的音频;若选用上传录音文件,请按照平台要求文件格式进行上传,支持上传wav/mp3/m4a,单/双声道,16KHz及以上采样率,10s以上,小于10MB。
效果合成试听
原始音频上传完成后,平台会给予您的音频进行训练,大约需要等待5-10s即完成训练,这时可在创建页最右侧自定义文本试听您的音频效果。
开始生成
您在语音创建页调试满意的情况下,确认无误即可点击创建按钮;点击后直接跳转我的空间-我的资产页,这时您可在当前页面看见您创建的语音资产。
完成创建
已完成创建的资产,支持在我的空间-我的资产页编辑及使用,需注意创建完成的资产仅支持编辑基础信息和效果试听,无法再次上传修改音频素材及合成。