语音合成,又称文本转语音(Text-to-Speech,TTS),是将文本转换为自然语音的技术。该技术基于机器学习算法,通过学习大量语音样本,掌握语言的韵律、语调和发音规则,从而在接收到文本输入时生成真人般自然的语音内容。
示例场景和语音
聊天数字人 | 电话客服 | 直播带货 |
有声阅读 | 语音导航 | 新闻播报 |
英文场景 | 语音助手 | 视频配音 |
选择模型
百炼支持的语音合成模型包括CosyVoice和Sambert。
如果您希望声音更接近真人、有特色或者有生活气息,建议选择CosyVoice。CosyVoice基于新一代生成式语音大模型,能根据上下文预测情绪、语调、韵律等,具有更好的拟人效果。
如果您希望边输入文本边合成语音(比如大模型流式输出文本时实时合成语音,让虚拟数字人说话),请选择CosyVoice。
Sambert不支持流式输入,需一次性输入完整文本才能开始合成语音。
CosyVoice支持流式输入+流式输出,以及非流式输入+流式/非流式输出。Sambert仅支持非流式输入+流式/非流式输出。
如果您有以下特定需求,请选择Sambert。
需要合成中英以外的语言(西班牙语、意大利语等)。
需要通过SSML标记语言控制声音的断句、停顿、情绪、发音等。
需要在输出音频流的同时,输出每个汉字/英文单词在音频中的时间戳,用于驱动虚拟人口型、做视频配音字幕等。
模型 | 单价 | 免费额度 |
CosyVoice | 2元/万字符 根据待合成字符数计费(其中1个汉字算2个字符,英文、标点符号均按照个1个字符计费)。 | 每主账号每模型每月2000字符。 |
Sambert | 1元/万字符 根据待合成字符数计费(其中1个汉字算2个字符,英文、标点符号均按照个1个字符计费)。SSML标签内容不计费。 | 每主账号每模型每月3万字符。 |
快速开始
在线体验
请在语音合成页面选择“语音合成CosyVoice大模型”,单击立即体验。再选择合适的音色,输入自定义文本,在线体验语音合成。
示例代码
您需要已获取API Key并配置API Key到环境变量。如果通过SDK调用,还需要安装DashScope SDK。
CosyVoice
如您想使用Python和Java以外的编程语言,可以使用WebSocket协议进行调用。 关于API参数说明,请参见CosyVoice API详情。 |
Sambert
更多调用详情,请参见Sambert API详情。 |
常见问题
语音合成的发音读错怎么办?多音字如何控制发音?
您可以尝试:
是否支持流式输入?
CosyVoice:是。
Sambert:否。
待合成文本长度是否有限制?
CosyVoice
流式:每次发送的文本片段长度不超过2000字符,所有文本片段总计长度不超过20万字符。
非流式:文本总长度不超过2000字符。
字符计算规则:
1个汉字算作2个字符。
1个英文字母、1个标点或1个句子中间空格均算作1个字符。
Sambert
最高字符限制:1万字符。
字符计算规则:
1个汉字、1个英文字母、1个标点或1个句子中间空格均算作1个字符。