语音合成CosyVoice大模型

更新时间: 2024-12-23 14:06:49

产品简介

基于新一代生成式语音大模型,CosyVoice将文本理解和语音生成技术深度融合,能够精准解析并诠释各种文本内容,将其转化为如同真人发声般的自然语音,带来超自然拟人的语音合成体验。

产品优势

  • 高度拟人化:采用阿里通义语音实验室自研的CosyVoice 生成式神经网络语音大模型算法,使生成的语音在语调、韵律、情感表达等方面达到超拟人程度。

  • 多样化音色选择:提供多种音色,满足用户在不同场景下的个性化需求。无论是新闻播报的庄重严肃,还是故事讲述的情感丰富,都能轻松驾驭。详情请参见音色

  • 实时高效合成:系统具有出色的响应速度和流式语音合成处理能力,无论是长篇文档还是短句指令,都能实现快速、准确的实时语音合成。

  • 应用广泛:适用于多种应用场景,如智能客服、有声读物、车载导航、教育辅导等,极大地拓宽了语音交互的可能性,提升用户体验的同时,也为企业智能化转型提供了强大支持。

功能特性

接入方式

SSML

不支持

流式输入

支持

流式输出

支持

合成音频格式

参见CosyVoice API详情,可以通过format参数进行设置:

  • pcm

  • wav

  • mp3

合成音频采样率

参见CosyVoice API详情,可以通过format参数进行设置:

  • 8kHz

  • 16kHz

  • 22.05kHz

  • 24kHz

  • 44.1kHz

  • 48kHz

音量调节

支持,参见CosyVoice API详情,可以通过volume参数进行调节

语速调节

支持,参见CosyVoice API详情,可以通过speech_rate参数进行调节

语调调节

支持,参见CosyVoice API详情,可以通过pitch_rate参数进行调节

时间戳

不支持

语言

音色而异:中文、英文、中文东北口音

声音复刻

支持

待合成文本长度限制

流式输入:每次发送的文本片段长度不超过2000字符,所有文本片段总计长度不超过20万字符

非流式输入:文本总长度不超过2000字符

字符计算规则:

1个汉字算作2个字符

1个英文字母、1个标点或者1个句子中间的空格均算作1个字符

单价

2元/万字符

根据待合成字符数计费(其中1个汉字算2个字符,英文、标点符号均按照个1个字符计费)

免费额度

每主账号每模型每月2000字符

应用场景

  • 智能客服

    提供多行业多场景的智能客服语音合成能力。能够提高解答效率,提升客户满意度,降低呼叫中心人工成本。通过定制个性化人声,使智能客服与真人保持同一音色。

  • 智能设备

    为智能家居、音箱、车载和可穿戴设备等赋予一个最有温度的声音。例如,用父母的音色给孩子讲故事,或者使用奔波在外的孩子的声音为父母导航。

  • 文学有声阅读

    让富有感染力的声音为您讲故事、读小说、播新闻,满足“懒人”的阅读需求。

  • 新闻传媒播报

    释放用户的双手和双眼,提供多种发音风格的新闻播报,打造更极致的传媒体验。

  • 无障碍播报

    将文字转成流畅动听的自然语言声音,实现面向各类人群的无障碍播报。

  • 内容创作

    自媒体、大V等内容创作方可将个性化定制的声音应用于传播平台。如资讯播报、视频配音等。

  • 在线教育

    “复制”在线课堂老师的声音,增强课堂的交互性。

  • 更多应用场景

    除上述场景外,CosyVoice还适用于各种需要语音合成的场景,为用户提供高效、准确、超自然拟人的服务。

产品体验

请点击链接体验语音合成

相关文档

您可以通过阅读以下文档了解更多:

上一篇: API详情 下一篇: 快速开始
阿里云首页 大模型服务平台百炼 相关技术圈