声音复刻

更新时间:
复制为 MD 格式

本文将介绍如何利用已录制的音频文件,借助阿里云百炼的声音复刻服务(支持CosyVoice系列和Qwen3模型),生成定制化的专有音色,并在AI实时互动中进行应用。

操作流程概览

完成声音复刻并应用到AI实时互动的完整流程如下:

  1. 在百炼平台完成声音复刻:准备音频文件,调用百炼API上传语音文件并生成音色ID。

  2. AI实时互动控制台配置TTS节点:使用生成的音色ID,在工作流的TTS节点中配置百炼模型和音色参数。

前置准备

步骤一:在百炼平台完成声音复刻

音频文件准备

在准备音频文件时,请注意以下事项:

  • 声道数:单/双声道

  • 采样率:大于等于 16000 Hz

  • 格式:WAV(16bit)、MP3、M4A

  • 文件大小:10MB 以内

准备好音频文件后,您需要将音频文件上传到公网可访问URL。这里推荐您将音频上传至OSS,具体操作步骤请参考,操作方式

说明

您需对所提供声音的所有权及合法使用权负责,请注意阅读服务协议

支持的克隆模型

百炼平台目前支持以下声音克隆模型:

调用API生成音色ID

以下示例代码将展示如何调用百炼API上传音频文件并生成音色ID:

import os
import dashscope
from dashscope.audio.tts_v2 import VoiceEnrollmentService, SpeechSynthesizer

dashscope.api_key = os.getenv('DASHSCOPE_API_KEY')  # 如果您没有配置环境变量,请在此处用您的API-KEY进行替换
url = "https://your-audio-file-url"  # 请按实际情况进行替换
prefix = 'prefix' #可自定义音色前缀
target_model = "cosyvoice-v2"

# 创建语音注册服务实例
service = VoiceEnrollmentService()

# 调用create_voice方法复刻声音,并生成voice_id
voice_id = service.create_voice(target_model=target_model, prefix=prefix, url=url)
print(f"your voice id is {voice_id}")
# 输出 cosyvoice-prefix-xxxxx

调用完成后,请妥善保存上述代码返回的音色ID(即voice_id字符串),以便在下一步的AI实时互动控制台中使用。

步骤二:在AI实时互动控制台配置TTS节点

完成声音复刻并获得音色ID后,您需要在AI实时互动控制台的工作流中配置TTS节点,以使用复刻的音色。

配置步骤

  1. 前往工作流管理界面。

  2. 单击您需要配置的工作流,单击右上角编辑按钮。

  3. 选择TTS文字转语音节点,选择模型为百炼,对参数进行配置。

    • ApiKey:调用阿里云百炼服务所使用的ApiKey,此处使用的ApiKey需要与复刻时的api_key相同。

    • ModelId:调用阿里云百炼模型的模型Id。根据步骤一中您使用的克隆模型填写对应的模型ID,例如:cosyvoice-v2(CosyVoice系列)或其他支持的模型ID。

    • 音色:填写在步骤一中生成的音色ID(即voice_id)。

      image

  4. 单击保存按钮。

配置完成后,您的AI实时互动工作流即可使用复刻的音色进行语音合成。