语音合成CosyVoice大模型
产品简介
基于新一代生成式语音大模型,CosyVoice将文本理解和语音生成技术深度融合,能够精准解析并诠释各种文本内容,将其转化为如同真人发声般的自然语音,带来超自然拟人的语音合成体验。
产品优势
高度拟人化:采用阿里通义语音实验室自研的CosyVoice 生成式神经网络语音大模型算法,使生成的语音在语调、韵律、情感表达等方面达到超拟人程度。
多样化音色选择:提供多种音色,满足用户在不同场景下的个性化需求。无论是新闻播报的庄重严肃,还是故事讲述的情感丰富,都能轻松驾驭。详情请参见音色。
实时高效合成:系统具有出色的响应速度和流式语音合成处理能力,无论是长篇文档还是短句指令,都能实现快速、准确的实时语音合成。
应用广泛:适用于多种应用场景,如智能客服、有声读物、车载导航、教育辅导等,极大地拓宽了语音交互的可能性,提升用户体验的同时,也为企业智能化转型提供了强大支持。
功能特性
接入方式 |
|
SSML | 不支持 |
流式输入 | 支持 |
流式输出 | 支持 |
合成音频格式 | 参见CosyVoice API详情,可以通过
|
合成音频采样率 | 参见CosyVoice API详情,可以通过
|
音量调节 | 支持,参见CosyVoice API详情,可以通过 |
语速调节 | 支持,参见CosyVoice API详情,可以通过 |
语调调节 | 支持,参见CosyVoice API详情,可以通过 |
时间戳 | 不支持 |
语言 | 因音色而异:中文、英文、中文东北口音 |
声音复刻 | 支持 |
待合成文本长度限制 | 流式输入:每次发送的文本片段长度不超过2000字符,所有文本片段总计长度不超过20万字符 非流式输入:文本总长度不超过2000字符 字符计算规则: 1个汉字算作2个字符 1个英文字母、1个标点或者1个句子中间的空格均算作1个字符 |
单价 | 2元/万字符 根据待合成字符数计费(其中1个汉字算2个字符,英文、标点符号均按照个1个字符计费) |
免费额度 | 每主账号每模型每月2000字符 |
应用场景
智能客服
提供多行业多场景的智能客服语音合成能力。能够提高解答效率,提升客户满意度,降低呼叫中心人工成本。通过定制个性化人声,使智能客服与真人保持同一音色。
智能设备
为智能家居、音箱、车载和可穿戴设备等赋予一个最有温度的声音。例如,用父母的音色给孩子讲故事,或者使用奔波在外的孩子的声音为父母导航。
文学有声阅读
让富有感染力的声音为您讲故事、读小说、播新闻,满足“懒人”的阅读需求。
新闻传媒播报
释放用户的双手和双眼,提供多种发音风格的新闻播报,打造更极致的传媒体验。
无障碍播报
将文字转成流畅动听的自然语言声音,实现面向各类人群的无障碍播报。
内容创作
自媒体、大V等内容创作方可将个性化定制的声音应用于传播平台。如资讯播报、视频配音等。
在线教育
“复制”在线课堂老师的声音,增强课堂的交互性。
更多应用场景
除上述场景外,CosyVoice还适用于各种需要语音合成的场景,为用户提供高效、准确、超自然拟人的服务。
产品体验
请点击链接体验语音合成。
相关文档
您可以通过阅读以下文档了解更多: