仅需实时录制一段文本或上传一段音频文件,就能高质量还原声音本色,生成自己的定制音色,用于数字人的对话、播报等内容生产音色。
说明
数字人音色定制,当前限时免费中
定制流程
实时录制音频复刻
克隆方式选择录音时,可以基于平台给出的文案,在指定语境内朗读录制
录制要求
录制时无环境背景噪声、无明显回声和混响
录制期间话筒距离嘴部的距离稳定,避免声音忽大忽小
录制过程中保持姿态稳定,减少人为噪声,如肢体碰撞声、服装摩擦声、桌椅移动声、鼠标键盘声等
语种要求
支持选择目标合成语种(如中文、英文、日语、韩语等)
建议录制语种与目标语种一致,以获得最佳克隆效果

上传音频文件复刻
克隆方式选择上传时,可以上传音频文件进行克隆
第一步上传文件
文件要求
音频格式:wav、mp3、m4a
采样率:大于等于16000Hz
文件大小:10MB 以内
音频时长:大于等于10s
语种要求
支持选择目标合成语种(如中文、英文、日语、韩语等)
建议录制语种与目标语种一致,以获得最佳克隆效果

音频片段选取
上传成功后,系统默认选取前10秒作为克隆参考片段
可手动调整选取区间(固定时长10秒,仅可滑动选择起始点)
建议选取人声清晰、无背景噪声、语速平稳、情绪自然的片段
选取完成后支持:
试听:预览所选片段的克隆试听效果
重新选取:调整10秒区间后重新试听
重新上传:若整体音频质量不佳,可替换文件重新操作

说明
10秒片段的质量直接影响音色还原效果,建议优先选取发音标准、环境干净的片段。
该文章对您有帮助吗?