Sambert语音合成

更新时间: 2024-12-23 14:13:14

产品简介

基于达摩院改良的自回归韵律模型,Sambert 融合了 SAMBERT+NSFGAN 深度神经网络算法与传统领域知识,提供高效的文字转语音服务。该技术具备推理速度快、合成效果卓越、读音精准、韵律自然、声音还原度高以及表现力强等优点。

此外,用户可以选择开启字级别和音素级别的时间戳,用于生成字幕或驱动数字人的嘴型。

产品优势

  • 多样化音色选择:提供多种音色,满足用户在不同场景下的个性化需求。无论是新闻播报的庄重严肃,还是故事讲述的情感丰富,都能轻松驾驭。详情请参见模型列表

  • 多语言支持:无论是中文、英文还是其他主要语言,Sambert 都能提供高质量的文字转语音服务,确保在不同语言环境下都能实现精准、自然的语音合成,为国际化的应用场景提供了强大的支持。详情请参见模型列表

  • 精准的时间戳功能:用户可以选择开启字级别和音素级别的时间戳,用于生成字幕或驱动数字人的嘴型。这一功能不仅提升了字幕生成的准确性,还增强了数字人在虚拟环境中的真实感和互动性(详情请参见API详情,通过参数word_timestamp_enabledphoneme_timestamp_enabled开启时间戳)。

  • 应用广泛:适用于多种应用场景,如数字人、直播、配音解说、新闻播报等,极大地拓宽了语音交互的可能性,提升用户体验的同时,也为企业智能化转型提供了强大支持。

功能特性

接入方式

SSML

支持(参见SSML标记语言

流式输入

不支持

流式输出

支持

合成音频格式

参见API详情,可以通过format参数进行设置:

  • pcm

  • wav

  • mp3

合成音频采样率

参见API详情,可以通过sample_rate参数进行设置,建议使用模型默认采样率,如果不匹配,服务会进行必要的升降采样处理:

  • 16kHz

  • 48kHz

音量调节

支持,参见API详情,可以通过volume参数进行调节

语速调节

支持,参见API详情,可以通过rate参数进行调节

语调调节

支持,参见API详情,可以通过pitch参数进行调节

时间戳

支持,参见API详情,可以通过word_timestamp_enabledphoneme_timestamp_enabled参数开启时间戳

语言

模型而异:中文、英文、美式英文、意大利语、西班牙语、印尼语、法语、德语、泰语

声音复刻

支持

待合成文本长度限制

最高字符限制:1万字符

字符计算规则:1个汉字、1个英文字母、1个标点或1个句子中间空格均算作1个字符

单价

1元/万字符

根据待合成字符数计费(其中1个汉字算2个字符,英文、标点符号均按照个1个字符计费)
SSML标签内容不计费

免费额度

每主账号每模型每月3万字符

应用场景

  • 数字人播报

    数字人可以作为虚拟客服、虚拟主播等,在不同场景中提供对话服务,结合时间戳功能,确保口型与语音的同步,提供逼真的视觉和听觉体验。

  • 文学有声阅读

    让富有感染力的声音为您讲故事、读小说、播新闻,满足“懒人”的阅读需求。

  • 新闻传媒播报

    释放用户的双手和双眼,提供多种发音风格的新闻播报,打造更极致的传媒体验。

  • 全球客户服务

    生成高质量的语音,确保客户无论使用哪种语言都能获得流畅、自然的服务体验。

  • 国际会议和活动

    生成多种语言的语音,帮助参与者更好地理解和参与活动。

  • 跨文化培训和教育

    可以生成准确、自然的多语言语音,帮助学员更好地学习和理解课程内容。

  • 旅游和导航

    生成清晰、自然的多语言语音,帮助游客更好地导航和了解景点信息。

  • 更多应用场景

    除上述场景外,Sambert还适用于各种需要语音合成的场景,为用户提供高效、准确、多语言的服务。

相关文档

您可以通过阅读以下文档了解更多:

上一篇: 附录:支持语言列表 下一篇: 模型列表
阿里云首页 大模型服务平台百炼 相关技术圈