智能媒体服务支持通过对真人语音的学习训练,实现人声克隆定制的功能。通过阅读本文,您可以了解如何定制及使用克隆的人声。
人声克隆定制
智能媒体服务提供人声克隆定制服务,支持基础版、大众版(轻量定制)和高级定制版三档定制方案,您可以根据场景和实际需求选择定制方案。
基础版:您需要选择场景(交互、故事、导航)后,按流程朗读20句话,并上传对应的语音,系统会采用标准化统一算法,3小时内快速输出克隆人声,可快速低成本的模拟关键声纹特征。
大众版(轻量定制):您需要自助提交丰富、清晰、高质量长度约20~30分钟的语音物料,基于阿里云轻量定制的算法服务,实现满足常见大众场景的人声拟真效果。
高级定制版:阿里云提供专业的录制导师、训练算法和结果调优的全流程服务,针对单个人声进行训练算法定制,预期可达到广电传媒级的拟真效果,实现个性化高标准人声还原。
人声克隆定制方案 | 训练(录制)方式 | 提交训练素材方式 |
基础版 | 自行通过手机或专业录音采集设备录制语音。 | 通过控制台或OpenAPI自行上传训练素材,即可快速低成本的进行人声克隆定制。具体操作,请参见人声克隆定制。 |
大众版(轻量定制) | 专业录音采集设备录制语音或收集日常采集的多段清晰人声录音。 | 通过控制台或OpenAPI自行上传训练素材,即可快速低成本的进行人声克隆-大众版(轻量定制)定制。具体操作,请参见人声克隆定制。 |
高级定制版 | 通过钉钉加入群48335001108,联系官方客服咨询定制流程。 |
在录制时,请严格遵守以下事项:
录制环境需要保持安静。
仅支持标准普通话,录制时注意吐字清晰。
使用单一人声进行定制提交。
录音设备确保无杂音,如果条件允许,尽量使用专业录音采集设备。
使用克隆的人声
人声克隆定制完成之后,定制的人声可用于以下场景:
文字转语音TTS,关于对应的OpenAPI和控制台操作,请参见SubmitAudioProduceJob和智能生成配音。
驱动方式为“文字驱动”的数字人视频合成,详情请参见创建数字人视频合成任务。