语音合成-CosyVoice
产品简介
基于新一代生成式语音大模型,CosyVoice将文本理解和语音生成技术深度融合,能够精准解析并诠释各种文本内容,将其转化为如同真人发声般的自然语音,带来高度拟人化的自然语音合成体验。
产品优势
高度拟人化:采用阿里通义语音实验室自研的CosyVoice 生成式神经网络语音大模型算法,使生成的语音在语调、韵律、情感表达等方面达到超拟人程度。
多样化音色选择:提供多种音色,满足用户在不同场景下的个性化需求。无论是新闻播报的庄重严肃风格,还是故事讲述的情感丰富场景,都能完美适配。
实时高效合成:系统具有出色的响应速度和流式语音合成处理能力,无论是长篇文档还是短句指令,都能实现快速、准确的实时语音合成。
应用广泛:适用于多种应用场景,如智能客服、有声读物、车载导航、教育辅导等,极大地拓宽了语音交互的可能性,提升用户体验的同时,也为企业智能化转型提供了强大支持。
功能特性
接入方式 | Python、Java、WebSocket |
SSML | 不支持 |
Latex数学表达式 | 支持 支持中小学常见数学表达式(如基础运算、代数、几何等)的语音合成,详情请参见Latex能力支持说明 |
流式输入 | 支持 |
流式输出 | 支持 |
合成音频格式 |
|
合成音频采样率 |
|
音量调节 | 支持 |
语速调节 | 支持 |
语调调节 | 支持 |
时间戳 | 不支持 |
语言 | 因音色而异:中文、英文、中文东北口音 |
声音复刻 | 支持 |
待合成文本长度限制 | 流式输入:每次发送的文本片段长度不超过2000字符,所有文本片段总计长度不超过20万字符 非流式输入:文本总长度不超过2000字符 字符计算规则: 1个汉字算作2个字符 1个英文字母、1个标点或1个句子中间的空格均算作1个字符 |
应用场景
智能客服
提供多行业多场景的智能客服语音合成能力。能够提高解答效率,提升客户满意度,降低呼叫中心人工成本。通过定制个性化人声(参见声音复刻API接口详情),使智能客服与真人保持同一音色。
智能设备
为智能家居、音箱、车载和可穿戴设备等赋予更具人性化温度的声音。例如用父母音色(参见声音复刻API接口详情)讲故事或用子女音色进行导航。
文学有声阅读
让富有感染力的声音为您讲故事、读小说、播新闻,满足便捷阅读需求。
新闻传媒播报
释放用户的双手和双眼,提供多种发音风格的新闻播报,打造更优质的传媒体验。
无障碍播报
将文字转成流畅动听的自然语言声音,实现面向各类人群的无障碍播报。
内容创作
自媒体、大V等内容创作方可将个性化定制的声音应用于传播平台。如资讯播报、视频配音等。
在线教育
“复制”在线课堂老师的声音,增强课堂的交互性。
更多应用场景
除上述场景外,CosyVoice还适用于各种需要语音合成的场景,为用户提供高效、准确、超自然拟人的服务。
服务开通
CosyVoice服务无需单独开通,只需开通阿里云百炼的模型服务即可使用。
产品体验
音色试听
在音色列表中,点击播放按钮即可试听。
API详情
语音合成
不同编程语言的SDK/API在参数命名规则、接口调用方式上存在差异,请根据实际编程语言参阅对应文档:
Java:Java API
Python:Python API
其他编程语言(如Go、C#、PHP、Node.js等):WebSocket API
声音复刻
计量计费
语音合成
语音合成仅按待合成文本的字符数收费,使用音色等不额外收费。
声音复刻
免费
注意:使用声音复刻的音色进行语音合成是两个动作:“声音复刻(免费)”和“语音合成(收费)”
限流
语音合成
模型名称 | 提交作业接口RPS限制 |
cosyvoice-v1 | 3 |
cosyvoice-v2 | 3 |
声音复刻
模型名称 | 提交作业接口RPS限制 |
cosyvoice-v1 | 10 声音复刻时,无论您是仅使用 v1、仅使用 v2,还是同时调用两者,系统对所有请求的总并发限制均为 10 RPS。这意味着:
|
cosyvoice-v2 |
常见问题
计量计费
Q:如何获取免费额度?
详情请参见获取免费额度。
Q:如何查看免费额度的有效期?
模型免费额度的有效期请在模型列表中对应模型的介绍中查看。
Q:免费额度用完后模型调用是否中断?
已开始的模型调用会继续完成,不会因为免费额度用完而中断。超出免费额度的Token将按模型列表中的输入/输出成本计费,产生的费用会以按量后付费的方式自动从阿里云账户中扣除。这可能会导致账户出现欠费情况。
Q:如何充值?
请参照充值操作指引为账户充值。充值完成后,账户余额可能存在一定时间的更新延迟,请您等待几分钟后,再前往费用与成本页面查看可用余额。充值已到账且没有欠费时即可调用模型。
Q:如何查看CosyVoice模型使用量?
功能特性
Q:在CosyVoice和Sambert之间如何做选择?CosyVoice和Sambert功能上有哪些差异(如是否支持声音复刻、SSML标记语言等)?
请参见选择模型,查看CosyVoice和Sambert的功能对比,并选择适合的模型。
Q:当前RPS(Requests Per Second)无法满足实际业务需求,该怎么办?是否收费?
相关文档
语音合成-CosyVoice/Sambert:介绍语音合成技术的基本概念、应用场景和解决方案。
声音复刻:仅需10~20秒的录音,即可复刻真人声音,快速定制专属音色。
模型列表:提供模型的基本信息与计费说明。
限流:概述模型限流规则(RPS,Requests Per Second)。