快速部署CosyVoice2.0 WebUI服务-人工智能平台 PAI(PAI)-阿里云帮助中心

CosyVoice2.0是阿里巴巴达摩院自研的新一代高保真语音合成模型，具备语音克隆功能，仅需30秒以内的Prompt音频即可克隆目标音色，支持跨语种复刻。适用于客服对话、有声书朗读、短视频配音等多种场景。阿里云PAI-EAS基于该模型封装并集成了可视化WebUI界面，可快速部署云端语音推理服务。本文为您介绍如何在PAI-EAS平台部署CosyVoice2.0服务，并通过推理服务生成音频。

背景信息

CosyVoice2.0旨在打造自然亲切、富有情感的AI声音。基于大规模语音语料训练与精细的韵律建模，CosyVoice2.0实现了媲美真人主播的声音表现力。无论是客户服务中的贴心问候，还是有声内容的深情朗读，CosyVoice2.0都能生成温暖自然的语音，打破冰冷的合成感，为您带来更具情感温度的听觉体验。

CosyVoice2.0具有以下优势：

声音自然亲切：远离机器味，模拟人类语音的节奏、情感与韵律。
多场景适配：支持客服对话、有声书朗读、短视频配音、电商语音推荐等。
高效率低延迟：轻量云端部署，快速生成流畅语音。
高度可控性：支持语调调节、情感控制、角色定制，打造专属品牌音色。

本文部署的CosyVoice2.0 WebUI服务仅供体验使用。您也可以使用CosyVoice2.0的高并发版本进行高性能推理，详情请参见快速部署Frontend/Backend分离式高性能服务。

使用限制

目前，推理模式暂不支持使用预训练音色。

计费说明

部署CosyVoice 2.0镜像服务时，仅收取资源费用和系统盘费用。如您不再使用该服务，请及时在目标服务操作列下单击停止，以停止服务，避免产生不必要的费用。更多计费详情请参见模型在线服务（EAS）计费说明。

部署CosyVoice2.0服务

方式一：场景化部署（推荐）

登录PAI控制台，在页面上方选择目标地域，并在右侧选择目标工作空间，然后单击进入EAS。
在推理服务页签，单击部署服务，然后在场景化模型部署区域，单击AI语音生成-CosyVoice部署。

配置以下关键参数：

参数		描述
基本信息	版本选择	选择标准版。
环境信息	镜像版本	根据资源类型选择对应镜像。本文选择`cosyvoice-webui:0.2.0-pytorch2.3.1-gpu-py310-cu128-ubuntu22.04`。说明由于版本迭代迅速，部署时镜像版本选择最高版本即可。
	运行命令	选择镜像版本后，系统会自动配置运行命令`/bin/bash /tmp/entry.sh --action=start_webui --port=9000 --data_dir=/mnt/data/ --model_dir=/nasmnt/models/pretrained_models/CosyVoice2-0.5B/ --ttsfrd_dir=/nasmnt/models/pretrained_models/CosyVoice-ttsfrd/ --workers 1`，其中： --port：服务端口号，与EAS服务配置的端口号保持一致。 --data_dir：挂载目录，存储参考音频和模型。默认为`/mnt/data`。如进行了存储挂载，需与存储挂载中设置的挂载路径一致。 --model_dir：模型加载目录。还支持以下参数： --gpu_memory_utilization：设置GPU内存利用率上限。
	端口号	选择镜像版本后，系统会自动配置端口号`9000`，无需修改。
资源信息	资源类型	本方案选择公共资源。您也可以按需选择其他资源类型。
	实例数	本方案配置为1。
	部署资源	资源规格必须选择GPU机型，例如`ecs.gn8is.4xlarge`、`ml.gu8is.c16m128.1-gu60`。
	配置系统盘	由于镜像文件较大，为避免因存储空间不足导致服务部署失败，建议将系统盘配置为100 GiB。如果未手动设置，EAS后端将默认为CosyVoice2.0场景分配100 GiB的存储空间。
网络信息	专有网络配置	可选。当需要通过VPC高速直连访问服务，或为服务配置公网访问时，需配置专有网络。请在下拉列表中分别选择专有网络、交换机和安全组。如何创建，请参见创建和管理专有网络和管理安全组。

参数配置完成后，单击部署。
因拉取镜像较慢，大概需要持续5~10分钟左右。当服务状态为运行中时，表明服务部署成功。

方式二：自定义部署

登录PAI控制台，在页面上方选择目标地域，并在右侧选择目标工作空间，然后单击进入EAS。
在推理服务页签，单击部署服务，然后在自定义模型部署区域，单击自定义部署。

在自定义部署页面，配置以下关键参数，其他参数配置说明，请参见自定义部署。

参数		描述
环境信息	部署方式	选择镜像部署，并勾选开启Web应用。
	镜像配置	在官方镜像列表中选择cosyvoice-webui > cosyvoice-webui:0.2.0-pytorch2.3.1-gpu-py310-cu128-ubuntu22.04。说明由于版本迭代迅速，部署时镜像版本选择最高版本即可。
	运行命令	选择镜像后，系统会自动配置运行命令`/bin/bash /tmp/entry.sh --action=start_webui --port=9000 --data_dir=/mnt/data/ --model_dir=/nasmnt/models/pretrained_models/CosyVoice2-0.5B/ --ttsfrd_dir=/nasmnt/models/pretrained_models/CosyVoice-ttsfrd/ --workers 1`，其中： --port：服务端口号，与EAS服务配置的端口号保持一致。 --data_dir：挂载目录，存储参考音频和模型。默认为`/mnt/data`。如进行了存储挂载，需与存储挂载中设置的挂载路径一致。 --model_dir：模型加载目录。 --workers：设置内置的Frontend服务Worker数。未指定时，系统根据使用的资源规格自动配置。如需通过浏览器访问WebUI页面, 必须设置 `--workers 1`。还支持以下参数： --gpu_memory_utilization：设置GPU内存利用率上限。
	端口号	选择镜像后，系统会自动配置端口号`9000`，无需修改。
资源信息	资源类型	本方案选择公共资源。您也可以按需选择其他资源类型。
	实例数	本方案配置为1。
	部署资源	资源规格必须选择GPU机型，例如`ecs.gn8is.4xlarge`、`ml.gu8is.c16m128.1-gu60`。
	配置系统盘	由于镜像文件较大，为避免因存储空间不足导致服务部署失败，建议将系统盘配置为100 GiB。如果未手动设置，EAS后端将默认为CosyVoice2.0场景分配100 GiB的存储空间。
网络信息	专有网络配置	可选。当需要通过VPC高速直连访问服务，或为服务配置公网访问时，需配置专有网络。请在下拉列表中分别选择专有网络、交换机和安全组。如何创建，请参见创建和管理专有网络和管理安全组。

参数配置完成后，单击部署。
因拉取镜像较慢，大概需要持续5~10分钟左右。当服务状态为运行中时，表明服务部署成功。

推理服务生成音频

WebUI调用

单击目标服务名称进入概览页面，在右上角单击Web应用。
在WebUI页面中配置以下参数。
- 输入合成文本：输入目标文本内容，服务将生成对应的语音音频。请注意，输入文本的长度需至少大于5个字符。
- 选择推理模式：支持以下几种推理模式。
  - 3s极速复刻：根据上传的音频文件，快速复刻相同音色的音频。
  - 跨语种复刻：根据上传的音频文件音色，生成目标语言语音。
  - 自然语言控制：根据上传的音频文件以及Instruct指导信息（如：“用广东话说”）, 生成目标语言。
  - 预训练音色：暂不支持该推理模式。
- 选择prompt音频文件或录制prompt音频文件：上传已准备好的Prompt音频文件（例如zero_shot_prompt.wav），或录制Prompt音频文件。若同时提供，则优先选择Prompt音频文件。
- 输入prompt文本：输入对应录制的音频文件内容文本。该内容需与Prompt音频文件内容一致，暂时不支持自动识别。例如希望你以后能够做得比我还好呦。
- 输入instruct文本：通过instruct文本，动态调整语音风格，例如语气、情感、语速等。
单击生成音频，即可根据推理模式生成相应的音频。

API调用

通过API调用服务生成音频。详情请参见API接口说明。