声音克隆

更新时间:
复制为 MD 格式

本文档介绍了如何进行音色复刻,并进行管理。

概念介绍

通过大模型技术进行特征提取,从而完成声音的复刻,且无需训练过程。仅需提供时长较短的音频,即可迅速生成高度相似且听感自然的定制声音。

功能入口

  1. 登录云联络中心控制台,在左侧导航栏选择实例管理-V2,单击具体实例的访问地址进入实例控制台。

  2. 单击页面左上角菜单按钮,选择数字员工进入数字员工业务控制台。在左侧导航栏选择数字员工>声音克隆

    进入声音克隆页面,页面包含三个步骤:声音复刻模型选择(如 CosyVoice)、克隆对象录入(支持点击录音或上传 wav/mp3/m4a 格式音频文件)、合成克隆音色(输入文本后单击合成试听),右侧面板展示已有的克隆音色列表

功能说明

声音复刻模型选择

支持Qwen3、CosyVoice 的声音克隆能力模型选择,即在音色克隆页面中可以自定义选择声音复刻模型,可根据具体场景选择适合的克隆音色模型。在声音复刻模型选择下拉框中选择模型:CosyVoice(口音还原相似度高、韵律流畅)或Qwen(响应敏捷、自适应语气调节、复杂文本处理效果好)。音频输入方式支持点击录音(录制20s音频)或上传录音文件(支持wav/mp3/m4a格式,单/双声道,16KHz及以上采样率,时长10s以上,文件小于10MB)。

克隆对象录入

使用声音克隆时可以通过点击录音上传录音文件两种方式作为需要克隆的对象。

  • 点击录音:当选择点击开启录音后,可以根据参考内容进行朗读进行声音录制,录制完成后点击提交复刻按钮即可。

  • 上传录音文件:支持wav、mp3、m4a格式,支持单、双声道录音文件。音频采样率:16KHz及以上采样率。音频最好在10s以上,并且音频文件须小于10MB。

合成克隆音色

复刻后的声音可以通过书写测试文本,再进行点击合成试听按钮进行试听。

保存克隆音色

当音色克隆完成后,并且通过试听后觉得该克隆音色符合要求,即可点击创建并保存音色按钮进行保存。

在弹出的对话框中,填写音色名称(不超过 20 个字符),然后单击确认完成保存。

说明

声音克隆保存时,需注意已保存的音色总数是否达到5个,当达到5个时,会导致保存失败。

克隆音色列表

在界面的右侧列表中,可以查看已保存的音色列表。同时支持试听与删除。在克隆音色列表中,每条音色记录展示所使用的克隆模型名称(如 CosyVoice)及创建日期。单击播放图标可试听该音色,单击删除图标可移除该条记录。单击音色记录可弹出输入自定义文案试听浮窗,输入自定义文案后单击合成试听即可预览克隆效果。

克隆音色的使用

在配置数字员工场景中,可在场景中的语音设置的TTS语音合成服务中进行选择配置。在TTS配置声音风格中选择克隆音色,即可使用。