Sambert语音合成
产品简介
基于达摩院改良的自回归韵律模型,Sambert 融合了 SAMBERT+NSFGAN 深度神经网络算法与传统领域知识,提供高效的文字转语音服务。该技术具备推理速度快、合成效果卓越、读音精准、韵律自然、声音还原度高以及表现力强等优点。
此外,用户可以选择开启字级别和音素级别的时间戳,用于生成字幕或驱动数字人的嘴型。
产品优势
多样化音色选择:提供多种音色,满足用户在不同场景下的个性化需求。无论是新闻播报的庄重严肃,还是故事讲述的情感丰富,都能轻松驾驭。详情请参见模型列表。
多语言支持:无论是中文、英文还是其他主要语言,Sambert 都能提供高质量的文字转语音服务,确保在不同语言环境下都能实现精准、自然的语音合成,为国际化的应用场景提供了强大的支持。详情请参见模型列表。
精准的时间戳功能:用户可以选择开启字级别和音素级别的时间戳,用于生成字幕或驱动数字人的嘴型。这一功能不仅提升了字幕生成的准确性,还增强了数字人在虚拟环境中的真实感和互动性(详情请参见API详情,通过参数
word_timestamp_enabled
和phoneme_timestamp_enabled
开启时间戳)。应用广泛:适用于多种应用场景,如数字人、直播、配音解说、新闻播报等,极大地拓宽了语音交互的可能性,提升用户体验的同时,也为企业智能化转型提供了强大支持。
功能特性
接入方式 |
|
SSML | 支持(参见SSML标记语言) |
流式输入 | 不支持 |
流式输出 | 支持 |
合成音频格式 | 参见API详情,可以通过
|
合成音频采样率 | 参见API详情,可以通过
|
音量调节 | 支持,参见API详情,可以通过 |
语速调节 | 支持,参见API详情,可以通过 |
语调调节 | 支持,参见API详情,可以通过 |
时间戳 | 支持,参见API详情,可以通过 |
语言 | 因模型而异:中文、英文、美式英文、意大利语、西班牙语、印尼语、法语、德语、泰语 |
声音复刻 | 支持 |
待合成文本长度限制 | 最高字符限制:1万字符 字符计算规则:1个汉字、1个英文字母、1个标点或1个句子中间空格均算作1个字符 |
单价 | 1元/万字符 根据待合成字符数计费(其中1个汉字算2个字符,英文、标点符号均按照个1个字符计费) SSML标签内容不计费 |
免费额度 | 每主账号每模型每月3万字符 |
应用场景
数字人播报
数字人可以作为虚拟客服、虚拟主播等,在不同场景中提供对话服务,结合时间戳功能,确保口型与语音的同步,提供逼真的视觉和听觉体验。
文学有声阅读
让富有感染力的声音为您讲故事、读小说、播新闻,满足“懒人”的阅读需求。
新闻传媒播报
释放用户的双手和双眼,提供多种发音风格的新闻播报,打造更极致的传媒体验。
全球客户服务
生成高质量的语音,确保客户无论使用哪种语言都能获得流畅、自然的服务体验。
国际会议和活动
生成多种语言的语音,帮助参与者更好地理解和参与活动。
跨文化培训和教育
可以生成准确、自然的多语言语音,帮助学员更好地学习和理解课程内容。
旅游和导航
生成清晰、自然的多语言语音,帮助游客更好地导航和了解景点信息。
更多应用场景
除上述场景外,Sambert还适用于各种需要语音合成的场景,为用户提供高效、准确、多语言的服务。
相关文档
您可以通过阅读以下文档了解更多: