人声克隆概述

智能媒体服务支持通过对真人语音的学习训练,实现人声克隆定制的功能。通过阅读本文,您可以了解如何定制及使用克隆的人声。

人声克隆定制

智能媒体服务提供人声克隆定制服务,支持基础版、大众版(轻量定制)和高级定制版三档定制方案,您可以根据场景和实际需求选择定制方案。

  • 基础版:您需要选择场景(交互、故事、导航)后,按流程朗读20句话,并上传对应的语音,系统会采用标准化统一算法,3小时内快速输出克隆人声,可快速低成本的模拟关键声纹特征。

  • 大众版(轻量定制):您需要自助提交丰富、清晰、高质量长度约20~30分钟的语音物料,基于阿里云轻量定制的算法服务,实现满足常见大众场景的人声拟真效果。

  • 高级定制版:阿里云提供专业的录制导师、训练算法和结果调优的全流程服务,针对单个人声进行训练算法定制,预期可达到广电传媒级的拟真效果,实现个性化高标准人声还原。

人声克隆定制方案

训练(录制)方式

提交训练素材方式

基础版

自行通过手机或专业录音采集设备录制语音。

通过控制台或OpenAPI自行上传训练素材,即可快速低成本的进行人声克隆定制。具体操作,请参见人声克隆定制

大众版(轻量定制)

专业录音采集设备录制语音或收集日常采集的多段清晰人声录音。

通过控制台或OpenAPI自行上传训练素材,即可快速低成本的进行人声克隆-大众版(轻量定制)定制。具体操作,请参见人声克隆定制

高级定制版

通过钉钉加入群48335001108,联系官方客服咨询定制流程。

重要

在录制时,请严格遵守以下事项:

  • 录制环境需要保持安静。

  • 仅支持标准普通话,录制时注意吐字清晰。

  • 使用单一人声进行定制提交。

  • 录音设备确保无杂音,如果条件允许,尽量使用专业录音采集设备。

使用克隆的人声

人声克隆定制完成之后,定制的人声可用于以下场景: