快速部署CosyVoice2.0 WebUI服务

CosyVoice2.0是阿里巴巴达摩院自研的新一代高保真语音合成模型,具备语音克隆功能,仅需30秒以内的Prompt音频即可克隆目标音色,支持跨语种复刻。适用于客服对话、有声书朗读、短视频配音等多种场景。阿里云PAI-EAS基于该模型封装并集成了可视化WebUI界面,可快速部署云端语音推理服务。本文为您介绍如何在PAI-EAS平台部署CosyVoice2.0服务,并通过推理服务生成音频。

背景信息

CosyVoice2.0旨在打造自然亲切、富有情感的AI声音。基于大规模语音语料训练与精细的韵律建模,CosyVoice2.0实现了媲美真人主播的声音表现力。无论是客户服务中的贴心问候,还是有声内容的深情朗读,CosyVoice2.0都能生成温暖自然的语音,打破冰冷的合成感,为您带来更具情感温度的听觉体验。

CosyVoice2.0具有以下优势:

  • 声音自然亲切:远离机器味,模拟人类语音的节奏、情感与韵律。

  • 多场景适配:支持客服对话、有声书朗读、短视频配音、电商语音推荐等。

  • 高效率低延迟:轻量云端部署,快速生成流畅语音。

  • 高度可控性:支持语调调节、情感控制、角色定制,打造专属品牌音色。

本文部署的CosyVoice2.0 WebUI服务仅供体验使用。您也可以使用CosyVoice2.0的高并发版本进行高性能推理,详情请参见快速部署Frontend/Backend分离式高性能服务

使用限制

目前,推理模式暂不支持使用预训练音色

计费说明

部署CosyVoice 2.0镜像服务时,仅收取资源费用和系统盘费用。如您不再使用该服务,请及时在目标服务操作列下单击停止,以停止服务,避免产生不必要的费用。更多计费详情请参见模型在线服务(EAS)计费说明

部署CosyVoice2.0服务

具体操作步骤如下:

  1. 登录PAI控制台,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入EAS

  2. 模型在线服务(EAS)页面,单击部署服务,然后在自定义模型部署区域,单击自定义部署

  3. 自定义部署页面,配置以下关键参数,其他参数配置说明,请参见控制台自定义部署参数说明

    参数

    描述

    环境信息

    部署方式

    选择镜像部署,并勾选开启Web应用

    镜像配置

    官方镜像列表中选择cosyvoice-webui > cosyvoice-webui:0.1.0-gpu-py312-cu124-ubuntu22.04image

    说明

    由于版本迭代迅速,部署时镜像版本选择最高版本即可。

    运行命令

    选择镜像后,系统会自动配置运行命令/bin/bash /tmp/entry.sh --action=start_webui --workers=1 --port=50000 --data_dir=/mnt/data/ --gpu_memory_utilization=0.5 --enable_mps --model_dir=/nasmnt/models/pretrained_models/CosyVoice2-0.5B/ --ttsfrd_dir=/nasmnt/models/pretrained_models/CosyVoice-ttsfrd/,其中:

    • --gpu_memory_utilization:GPU内存利用率。

    • --enable_mps:开启NVIDIA的多进程服务。

    • --workers:内置的Frontend服务Worker数。

    • --port:服务端口号,与EAS保持一致。

    • --data_dir:挂载目录,需与模型配置中的挂载路径一致。

    • --model_dir:模型加载目录。

    端口号

    选择镜像后,系统会自动配置端口号50000,无需修改。

    资源信息

    资源类型

    本方案选择公共资源。您也可以按需选择其他资源类型。

    实例数

    本方案配置为1。

    部署资源

    资源规格必须选择GPU机型,例如ml.gu7i.c32m188.1-gu30ecs.gn7i-c32g1.8xlarge

    额外系统盘

    由于镜像文件较大,为避免因存储空间不足导致服务部署失败,建议将额外系统盘配置为100 GB。

    如果您未手动设置,EAS后端将默认为CosyVoice2.0场景分配100 GB的存储空间。

    服务接入

    专有网络(VPC)

    可选。当您需要通过VPC高速直连访问服务,或为服务配置公网访问时,需配置专有网络。请在下拉列表中分别选择专有网络、交换机和安全组。如何创建,请参见创建和管理专有网络管理安全组

    交换机

    安全组名称

    image

  4. 参数配置完成后,单击部署

    因拉取镜像较慢,大概需要持续5~10分钟左右。当服务状态运行中时,表明服务部署成功。

推理服务生成音频

WebUI调用

服务部署成功后,单击目标服务的服务方式列下的查看Web应用,进入WebUI页面。在该页面中配置以下参数,然后单击生成音频,即可根据推理模式生成相应的音频。

  • 输入合成文本:输入目标文本内容,服务将生成对应的语音音频。请注意,输入文本的长度需至少大于5个字符。

  • 选择推理模式:支持以下几种推理模式。

    • 3s极速复刻:根据上传的音频文件,快速复刻相同音色的音频。

    • 跨语种复刻:根据上传的音频文件音色,生成目标语言语音。

    • 自然语言控制:根据上传的音频文件以及Instruct指导信息(如:“用广东话说”), 生成目标语言。

    • 预训练音色:暂不支持该推理模式。

  • 选择prompt音频文件录制prompt音频文件:上传已准备好的Prompt音频文件(例如zero_shot_prompt.wav),或录制Prompt音频文件。若同时提供,则优先选择Prompt音频文件。

  • 输入prompt文本:输入对应录制的音频文件内容文本。该内容需与Prompt音频文件内容一致,暂时不支持自动识别。例如希望你以后能够做的比我还好呦

  • 输入instruct文本:通过instruct文本,动态调整语音风格,例如语气、情感、语速等。

image

API调用

您也可以通过API调用服务生成音频。具体操作,请参见API接口说明