数字人音色定制

更新时间:
复制为 MD 格式

仅需实时录制一段文本或上传一段音频文件,就能高质量还原声音本色,生成自己的定制音色,用于数字人的对话、播报等内容生产音色。

说明

数字人音色定制,当前限时免费中

定制流程

实时录制音频复刻

克隆方式选择录音时,可以基于平台给出的文案,在指定语境内朗读录制

录制要求
  • 录制时无环境背景噪声、无明显回声和混响

  • 录制期间话筒距离嘴部的距离稳定,避免声音忽大忽小

  • 录制过程中保持姿态稳定,减少人为噪声,如肢体碰撞声、服装摩擦声、桌椅移动声、鼠标键盘声等

语种要求
  • 支持选择目标合成语种(如中文、英文、日语、韩语等)

  • 建议录制语种与目标语种一致,以获得最佳克隆效果

image

上传音频文件复刻

克隆方式选择上传时,可以上传音频文件进行克隆

第一步上传文件

文件要求
  • 音频格式:wav、mp3、m4a

  • 采样率:大于等于16000Hz

  • 文件大小:10MB 以内

  • 音频时长:大于等于10s

语种要求
  • 支持选择目标合成语种(如中文、英文、日语、韩语等)

  • 建议录制语种与目标语种一致,以获得最佳克隆效果

image

音频片段选取
  • 上传成功后,系统默认选取前10秒作为克隆参考片段

  • 可手动调整选取区间(固定时长10秒,仅可滑动选择起始点)

  • 建议选取人声清晰、无背景噪声、语速平稳、情绪自然的片段

  • 选取完成后支持:

    • 试听:预览所选片段的克隆试听效果

    • 重新选取:调整10秒区间后重新试听

    • 重新上传:若整体音频质量不佳,可替换文件重新操作

image

说明

10秒片段的质量直接影响音色还原效果,建议优先选取发音标准、环境干净的片段。