将文本转化为真人般自然语音-语音合成CosyVoice大模型-智能语音交互-阿里云-智能语音交互(ISI)-阿里云帮助中心

文档备案控制台

产品介绍

语音合成CosyVoice大模型服务是依托大规模预训练语言模型，深度融合文本理解和语音生成的一项新型语音合成技术，能够精准解析并诠释各类文本内容，将其转化为宛如真人般的自然语音。

产品优势

高度拟人化：采用阿里千问语音实验室自研的CosyVoice 生成式神经网络语音大模型算法，使生成的语音在语调、韵律、情感表达等方面达到超拟人程度。
多样化音色选择：提供海量优质的音库资源，包括不同性别、年龄、方言以及各种特色声音，满足用户在不同场景下的个性化需求。无论是新闻播报的庄重严肃，还是故事讲述的情感丰富，都能轻松驾驭。
实时高效合成：系统具有出色的响应速度和流式语音合成处理能力，无论是长篇文档还是短句指令，都能实现快速、准确的实时语音合成。
支持富语言声音事件以及多情感的高拟人语音生成，例如笑声、语气词等，以及不同情感表现的高拟人语音生成。
灵活应用广泛：适用于多种应用场景，如智能客服、有声读物、车载导航、教育辅导等，极大地拓宽了语音交互的可能性，提升用户体验的同时，也为企业智能化转型提供了强大支持。

服务支持

CosyVoice大模型支持如下调用方式：

长文本语音合成：长文本语音合成功能提供了将超长文本（如千字或者万字）合成为语音二进制数据的功能。并且支持通过SSML添加背景音、停顿并修正读音。详见接口说明。
流式文本语音合成：流式文本语音合成可以将流式文本合成为语音，并实时地、流式地返回结果，从而极大地提升交互体验。一个典型适用的场景是，将大规模语言模型（LLM）返回的流式文本，无需做任何处理（如拼接、整合等），直接送入流式文本语音合成服务，并得到实时音频流。详见接口说明。
声音复刻：CosyVoice声音复刻服务依托先进的大模型技术进行特征提取，从而完成声音的复刻，且无需训练过程。仅需提供时长较短的音频，即可迅速生成高度相似且听感自然的定制声音。详见简介与SDK代码示例

计费和并发限制

语音合成CosyVoice仅提供商用版，不支持试用，详情请参见试用版和商用版。要使用该功能，请开通商用版，详情请参见试用版升级为商用版。
计费方式详情请参见计费方式。
并发限制请参见并发和QPS说明。

上一篇：语音合成CosyVoice大模型下一篇：长文本语音合成

该文章对您有帮助吗？