本文将介绍如何利用已录制的音频文件,借助阿里云百炼的声音复刻服务(支持CosyVoice系列和Qwen3模型),生成定制化的专有音色,并在AI实时互动中进行应用。
操作流程概览
完成声音复刻并应用到AI实时互动的完整流程如下:
在百炼平台完成声音复刻:准备音频文件,调用百炼API上传语音文件并生成音色ID。
在AI实时互动控制台配置TTS节点:使用生成的音色ID,在工作流的TTS节点中配置百炼模型和音色参数。
前置准备
步骤一:在百炼平台完成声音复刻
音频文件准备
在准备音频文件时,请注意以下事项:
声道数:单/双声道
采样率:大于等于 16000 Hz
格式:WAV(16bit)、MP3、M4A
文件大小:10MB 以内
准备好音频文件后,您需要将音频文件上传到公网可访问URL。这里推荐您将音频上传至OSS,具体操作步骤请参考,操作方式。
您需对所提供声音的所有权及合法使用权负责,请注意阅读服务协议。
支持的克隆模型
百炼平台目前支持以下声音克隆模型:
CosyVoice系列:模型信息、API调用详细请参见实时语音合成-CosyVoice/Sambert。
Qwen3:模型信息、API调用详细请参见实时语音合成-千问。
调用API生成音色ID
以下示例代码将展示如何调用百炼API上传音频文件并生成音色ID:
import os
import dashscope
from dashscope.audio.tts_v2 import VoiceEnrollmentService, SpeechSynthesizer
dashscope.api_key = os.getenv('DASHSCOPE_API_KEY') # 如果您没有配置环境变量,请在此处用您的API-KEY进行替换
url = "https://your-audio-file-url" # 请按实际情况进行替换
prefix = 'prefix' #可自定义音色前缀
target_model = "cosyvoice-v2"
# 创建语音注册服务实例
service = VoiceEnrollmentService()
# 调用create_voice方法复刻声音,并生成voice_id
voice_id = service.create_voice(target_model=target_model, prefix=prefix, url=url)
print(f"your voice id is {voice_id}")
# 输出 cosyvoice-prefix-xxxxx调用完成后,请妥善保存上述代码返回的音色ID(即voice_id字符串),以便在下一步的AI实时互动控制台中使用。
步骤二:在AI实时互动控制台配置TTS节点
完成声音复刻并获得音色ID后,您需要在AI实时互动控制台的工作流中配置TTS节点,以使用复刻的音色。
配置步骤
前往工作流管理界面。
单击您需要配置的工作流,单击右上角编辑按钮。
选择TTS文字转语音节点,选择模型为百炼,对参数进行配置。
ApiKey:调用阿里云百炼服务所使用的ApiKey,此处使用的ApiKey需要与复刻时的api_key相同。
ModelId:调用阿里云百炼模型的模型Id。根据步骤一中您使用的克隆模型填写对应的模型ID,例如:
cosyvoice-v2(CosyVoice系列)或其他支持的模型ID。音色:填写在步骤一中生成的音色ID(即
voice_id)。
单击保存按钮。
配置完成后,您的AI实时互动工作流即可使用复刻的音色进行语音合成。