语音合成,又称文本转语音(Text-to-Speech,TTS),是将文本转换为自然语音的技术。该技术基于机器学习算法,通过学习大量语音样本,掌握语言的韵律、语调和发音规则,从而在接收到文本输入时生成真人般自然的语音内容。
示例场景和语音
聊天数字人 | 电话客服 | 直播带货 |
有声阅读 | 语音导航 | 新闻播报 |
英文场景 | 语音助手 | 视频配音 |
支持的模型
百炼支持的语音合成模型包括CosyVoice和Sambert。
如果您希望声音更接近真人、有特色或者有生活气息,建议选择CosyVoice。CosyVoice基于新一代生成式语音大模型,能根据上下文预测情绪、语调、韵律等,具有更好的拟人效果。
如果您希望边输入文本边合成语音(比如大模型流式输出文本时实时合成语音,让虚拟数字人说话),请选择CosyVoice。Sambert需要先输入完整文本才能开始合成语音。
CosyVoice支持流式输入+流式输出,以及非流式输入+流式/非流式输出。Sambert仅支持非流式输入+流式/非流式输出。
如果您有以下特定需求,请选择Sambert。
需要合成中英以外的语言(西班牙语、意大利语等)。
需要通过SSML标记语言控制声音的断句、停顿、情绪、发音等。
需要在输出音频流的同时,输出每个汉字/英文单词在音频中的时间戳,用于驱动虚拟人口型、做视频配音字幕等。
模型 | 单价 | 免费额度 |
CosyVoice | 2元/万字符 根据待合成字符数计费(其中1个汉字算2个字符,英文、标点符号均按照个1个字符计费)。 | 每主账号每模型每月2000字符。 |
Sambert | 1元/万字符 根据待合成字符数计费(其中1个汉字算2个字符,英文、标点符号均按照个1个字符计费)。SSML标签内容不计费。 | 每主账号每模型每月3万字符。 |
快速开始
在线体验
CosyVoice在线体验:您可以输入自定义文本,在线体验语音合成。
示例代码
您需要已获取API-KEY并配置API-KEY到环境变量,以及安装DashScope SDK。
CosyVoice
关于API参数说明,请参见CosyVoice API详情。 |
Sambert
更多调用详情,请参见Sambert API详情。 |
常见问题
语音合成的发音读错怎么办?多音字如何控制发音?
您可以尝试:
如何定制声音?
如果您希望通过真人语音数据训练生成独特的定制语音合成模型,为您的品牌或角色合成清晰自然的声音,应用于数字人音频合成、音视频制作配音和个性化有声书朗读等场景,请参见轻量化声音克隆。
文档内容是否对您有帮助?