语音合成-CosyVoice

更新时间: 2025-05-16 17:41:34

产品简介

基于新一代生成式语音大模型,CosyVoice将文本理解和语音生成技术深度融合,能够精准解析并诠释各种文本内容,将其转化为如同真人发声般的自然语音,带来高度拟人化的自然语音合成体验。

产品优势

  • 高度拟人化:采用阿里通义语音实验室自研的CosyVoice 生成式神经网络语音大模型算法,使生成的语音在语调、韵律、情感表达等方面达到超拟人程度。

  • 多样化音色选择:提供多种音色,满足用户在不同场景下的个性化需求。无论是新闻播报的庄重严肃风格,还是故事讲述的情感丰富场景,都能完美适配。

  • 实时高效合成:系统具有出色的响应速度和流式语音合成处理能力,无论是长篇文档还是短句指令,都能实现快速、准确的实时语音合成。

  • 应用广泛:适用于多种应用场景,如智能客服、有声读物、车载导航、教育辅导等,极大地拓宽了语音交互的可能性,提升用户体验的同时,也为企业智能化转型提供了强大支持。

功能特性

接入方式

Python、Java、WebSocket

SSML

不支持

Latex数学表达式

支持

支持中小学常见数学表达式(如基础运算、代数、几何等)的语音合成,详情请参见Latex能力支持说明

流式输入

支持

流式输出

支持

合成音频格式

  • pcm

  • wav

  • mp3

合成音频采样率

  • 8kHz

  • 16kHz

  • 22.05kHz

  • 24kHz

  • 44.1kHz

  • 48kHz

音量调节

支持

语速调节

支持

语调调节

支持

时间戳

不支持

语言

音色而异:中文、英文、中文东北口音

声音复刻

支持

待合成文本长度限制

流式输入:每次发送的文本片段长度不超过2000字符,所有文本片段总计长度不超过20万字符

非流式输入:文本总长度不超过2000字符

字符计算规则:
1个汉字算作2个字符
1个英文字母、1个标点或1个句子中间的空格均算作1个字符

应用场景

  • 智能客服

    提供多行业多场景的智能客服语音合成能力。能够提高解答效率,提升客户满意度,降低呼叫中心人工成本。通过定制个性化人声(参见声音复刻API接口详情),使智能客服与真人保持同一音色。

  • 智能设备

    为智能家居、音箱、车载和可穿戴设备等赋予更具人性化温度的声音。例如用父母音色(参见声音复刻API接口详情)讲故事或用子女音色进行导航。

  • 文学有声阅读

    让富有感染力的声音为您讲故事、读小说、播新闻,满足便捷阅读需求。

  • 新闻传媒播报

    释放用户的双手和双眼,提供多种发音风格的新闻播报,打造更优质的传媒体验。

  • 无障碍播报

    将文字转成流畅动听的自然语言声音,实现面向各类人群的无障碍播报。

  • 内容创作

    自媒体、大V等内容创作方可将个性化定制的声音应用于传播平台。如资讯播报、视频配音等。

  • 在线教育

    “复制”在线课堂老师的声音,增强课堂的交互性。

  • 更多应用场景

    除上述场景外,CosyVoice还适用于各种需要语音合成的场景,为用户提供高效、准确、超自然拟人的服务。

服务开通

CosyVoice服务无需单独开通,只需开通阿里云百炼的模型服务即可使用。

产品体验

在线体验语音合成-CosyVoice

音色试听

音色列表中,点击播放按钮即可试听。

API详情

语音合成

不同编程语言的SDK/API在参数命名规则、接口调用方式上存在差异,请根据实际编程语言参阅对应文档:

声音复刻

API接口详情

计量计费

语音合成

语音合成仅按待合成文本的字符数收费,使用音色等不额外收费。

  • 单价:2元/万字符(根据待合成的文本字符数计费:1个汉字计为2个字符,英文、标点符号、空格均按1个字符计算)

  • 免费额度每主账号每模型每月2000字符

    更多操作:

  • 计费方式:按量计费(参见“计费项-模型推理(调用)”)

  • 付费方式:后付费(自动在余额中扣除费用,参见“计费项-模型推理(调用)”)

    更多操作:充值操作指引

  • 注意事项:免费额度用完后,正在进行的调用将继续,并从账户中扣除费用,可能导致欠费,欠费后模型无法调用,请确保余额(账单出账有延迟,建议刷新页面查看最新状态)充足以避免影响使用

声音复刻

免费

注意:使用声音复刻的音色进行语音合成是两个动作:“声音复刻(免费)”和“语音合成(收费)”

限流

语音合成

模型名称

提交作业接口RPS限制

cosyvoice-v1

3

cosyvoice-v2

3

声音复刻

模型名称

提交作业接口RPS限制

cosyvoice-v1

10

声音复刻时,无论您是仅使用 v1、仅使用 v2,还是同时调用两者,系统对所有请求的总并发限制均为 10 RPS。这意味着:

  • 如果您仅调用 v1,则其最大并发请求为 10 RPS。

  • 如果您同时调用 v1 和 v2,两者的请求总和不能超过 10 RPS(例如,v1 使用 7 RPS,则 v2 最多只能使用 3 RPS)。

cosyvoice-v2

常见问题

计量计费

Q:如何获取免费额度?

详情请参见获取免费额度

Q:如何查看免费额度的有效期?

模型免费额度的有效期请在模型列表中对应模型的介绍中查看。

Q:免费额度用完后模型调用是否中断?

已开始的模型调用会继续完成,不会因为免费额度用完而中断。超出免费额度的Token将按模型列表中的输入/输出成本计费,产生的费用会以按量后付费的方式自动从阿里云账户中扣除。这可能会导致账户出现欠费情况。

Q:如何充值?

请参照充值操作指引为账户充值。充值完成后,账户余额可能存在一定时间的更新延迟,请您等待几分钟后,再前往费用与成本页面查看可用余额。充值已到账且没有欠费时即可调用模型。

Q:如何查看CosyVoice模型使用量?

请对照模型观测文档中的说明,在模型观测页面中查看。

功能特性

Q:在CosyVoice和Sambert之间如何做选择?CosyVoice和Sambert功能上有哪些差异(如是否支持声音复刻、SSML标记语言等)?

请参见选择模型,查看CosyVoice和Sambert的功能对比,并选择适合的模型。

Q:当前RPS(Requests Per Second)无法满足实际业务需求,该怎么办?是否收费?

您可以选择提交阿里云工单或加入开发者群进行申请。扩容免费。

相关文档

  • 语音合成-CosyVoice/Sambert:介绍语音合成技术的基本概念、应用场景和解决方案。

  • 声音复刻:仅需10~20秒的录音,即可复刻真人声音,快速定制专属音色。

  • 模型列表:提供模型的基本信息与计费说明。

  • 限流:概述模型限流规则(RPS,Requests Per Second)。

上一篇: 语音合成/识别/翻译 下一篇: Java API
阿里云首页 大模型服务平台百炼 相关技术圈