本文介绍虚拟数字人开放平台提供的3D、2D流媒体服务和视频合成服务中如何使用阿里云智能语音合成服务的SSML标记语言。
1. 使用方式
1.1 数字人流媒体服务中使用
在SendMessage API中的SpeechText直接传入SSML文本
目前3D数字人流媒体服务支持播报SSML文本,2D数字人流媒体服务暂不支持。
1.2 数字人视频合成服务中使用
在SubmitTextTo3DAvatarVideoTask API(3D数字人视频合成服务)和SubmitTextTo2DAvatarVideoTask API(2D数字人视频合成服务)的Text字段直接传入SSML文本
2. 支持范围
标签 | 作用 | 示例 | 提示 |
<break> | 用于在文本中插入停顿。请勿连续插入多个break标签。 | <speak> 请闭上眼睛休息一下<break time="500ms"/>好了,请睁开眼睛。 </speak> | 建议设置范围为0-3s |
<phoneme> | 用于控制标签内文本的读音,英文文本不支持该标签 | <speak> 去<phoneme alphabet="py" ph="dian3 dang4 hang2">典当行</phoneme>把这个玩意当掉 </speak> | |
<say-as> | 用于指示出标签内文本的信息类型,进而按照该类型的默认发音方式发音 | 读数值: <speak><say-as interpret-as="cardinal">12345</say-as></speak> 读数字: <speak><say-as interpret-as="digits">12345</say-as></speak> 读手机号: <speak><say-as interpret-as="telephone">12345</say-as></speak> 读人名: <speak> 她的曾用名是<say-as interpret-as="name">曾小凡</say-as> </speak> | 目前平台支持:人名、地址、车牌号、标点符号、ID、日期、时间、计量单位、数值、数字、手机号、字母、单词。具体可以参考阿里云语音合成服务文档:https://help.aliyun.com/document_detail/101645.html#sectiondiv-9yg-x47-l08。 |
vh-action | 指定数字人动作 | <speak>大家好<vh-action code="animation_6746" interrupt="true"/>,我是数字人小莫,欢迎大家! </speak> | code: 数字人动作code(不同数字人的动作code不同,请根据实际数字人从平台获取),获取方式参考:获取数字人形象code interrupt: 是否打断当前正在播放的动作,true: 前一个动作未播放完,直接将其打断,立即播放该动作 false: 前一个动作未播放完,则不播放该动作 默认值true |
目前平台仅支持以上几个SSML标签,关于以上SSML标签的更多信息可以直接参考:阿里云语音合成服务SSML标记语言介绍:https://help.aliyun.com/document_detail/101645.html。