人声克隆概述

智能媒体服务支持通过对真人语音的学习训练,实现人声克隆定制的功能。通过阅读本文,您可以了解如何定制及使用克隆的人声。

人声克隆定制

智能媒体服务提供人声克隆定制服务,支持基础版、大众版(轻量定制)和高级定制版三档定制方案,您可以根据场景和实际需求选择定制方案。

  • 基础版:您需要选择场景(交互、故事、导航)后,按流程朗读20句话,并上传对应的语音,系统会采用标准化统一算法,3小时内快速输出克隆人声,可快速低成本的模拟关键声纹特征。

  • 大众版(轻量定制):您需要自助提交丰富、清晰、高质量长度约20~30分钟的语音物料,基于阿里云轻量定制的算法服务,实现满足常见大众场景的人声拟真效果。

  • 高级定制版:阿里云提供专业的录制导师、训练算法和结果调优的全流程服务,针对单个人声进行训练算法定制,预期可达到广电传媒级的拟真效果,实现个性化高标准人声还原。

人声克隆定制方案

训练(录制)方式

提交训练素材方式

基础版

自行通过手机或专业录音采集设备录制语音。

重要

当前版本仅支持中文人声的录制与克隆。

通过控制台或OpenAPI自行上传训练素材,即可快速低成本的进行人声克隆定制。具体操作,请参见人声克隆定制

大众版(轻量定制)

专业录音采集设备录制语音或收集日常采集的多段清晰人声录音。

重要

当前版本仅支持中文英文的人声录制及克隆。

通过控制台或OpenAPI自行上传训练素材,即可快速低成本的进行人声克隆-大众版(轻量定制)定制。具体操作,请参见人声克隆定制

高级定制版

通过钉钉加入群84650000851,联系官方客服咨询定制流程。

重要

当前版本仅支持中文英文的人声录制及克隆。

重要

在进行声音录制之前,请认真阅读录音指导,并严格遵循指南进行录制。

使用克隆的人声

人声克隆定制完成之后,定制的人声可用于以下场景: