提交根据一段文本离线生成3D数字人视频任务,该接口会立即返回一个TaskUuid作为本次提交任务的唯一id,后续可以根据TaskUuid调用查询和取消任务接口。
接口说明
提交根据一段文本离线生成 3D 数字人视频任务,该接口会立即返回一个 TaskUuid 作为本次提交任务的唯一 id,后续可以根据 TaskUuid 调用查询视频合成任务详情接口查询对应的任务的状态,当任务状态为已完成时可以获取到对应视频的下载地址,进行视频下载。在任务状态为未开始情况下,也可以通过 TaskUuid 调用取消视频合成任务接口,取消该任务。
调试
您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。
授权信息
下表是API对应的授权信息,可以在RAM权限策略语句的Action
元素中使用,用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下:
- 操作:是指具体的权限点。
- 访问级别:是指每个操作的访问级别,取值为写入(Write)、读取(Read)或列出(List)。
- 资源类型:是指操作中支持授权的资源类型。具体说明如下:
- 对于必选的资源类型,用背景高亮的方式表示。
- 对于不支持资源级授权的操作,用
全部资源
表示。
- 条件关键字:是指云产品自身定义的条件关键字。
- 关联操作:是指成功执行操作所需要的其他权限。操作者必须同时具备关联操作的权限,操作才能成功。
操作 | 访问级别 | 资源类型 | 条件关键字 | 关联操作 |
---|---|---|---|---|
avatar:SubmitTextTo3DAvatarVideoTask | Write |
|
| 无 |
请求参数
名称 | 类型 | 必填 | 描述 | 示例值 |
---|---|---|---|---|
TenantId | long | 是 | 租户 ID,从虚拟数字人开放平台中获取的 TenantId | xxxx |
App | object | 是 | App 信息,代表一个业务配置 | |
AppId | string | 是 | App ID。在开发者中心-实例管理页面获取对应的 appId,参考文档。 | 3d95xx946a |
Title | string | 是 | 提交的视频合成的任务标题,最长不超过 64 个字符 | 这是一个示例标题 |
Text | string | 是 | 合成文本,最长不超过 1000 个字符。支持 SSML 指定 TTS 的多音字发音、停顿、特殊读法、数字人动作等,可参考: 3D 数字人视频合成使用指南。 | 这是一个示例文本 |
VideoInfo | object | 否 | 视频格式 | |
IsAlpha | boolean | 否 | 是否需要透明通道, 默认 false
| false |
AlphaFormat | integer | 否 | 透明通道格式 ,默认值 1
注意 当 isAlpha 为 false 时,该字段忽略。mov 格式的透明视频文件大小会非常大,不推荐使用,建议使用 webm 或者 mp4。 | 1 |
IsSubtitles | boolean | 否 | 是否需要字幕,默认值:true
警告 该字段已废弃,传入 true 和 false 都会生成单独字幕文件,新增 SubtitleEmbedded 字段可控制是否将字幕合并到视频中。 | true |
SubtitleEmbedded | boolean | 否 | 是否将字幕合并到视频中,默认值:false
| false |
Resolution | integer | 是 | 生成的视频分辨率,目前支持:
| 1 |
BackgroundImageUrl | string | 否 | 有效可访问的 url 背景图片地址,背景图片的分辨率必须要与生成的视频分辨率保持一致
| 可访问的公网url地址 |
SubtitleStyle | object | 否 | 字幕样式。 | |
Name | string | 否 | 字体名称,默认值:alibabapuhuiti | alibabapuhuiti |
Color | string | 否 | 字体颜色,十六进制颜色码 RGBA。 | #000000FF |
OutlineColor | string | 否 | 描边颜色,十六进制颜色码 RGBA。 | #FFFFFF00 |
Y | integer | 否 | 字幕 y 轴位置,画面顶端坐标为 0。默认值,1920x1080:984,1080x1920:1824。 | 984 |
Size | integer | 否 | 字体大小,最小值:36,最大值:72,默认值:36。 | 36 |
AvatarInfo | object | 否 | 数字人相关配置 | |
Locate | integer | 否 | 数字人机位
具体每个机位的效果预览可以参考: 3D 数字人视频合成使用指南 | 0 |
Angle | integer | 否 | 0 | |
Code | string | 否 | 人物 code | CH_xxxxxxx |
IndustryCode | string | 否 | 行业 code,默认值:default
| default |
AudioInfo | object | 否 | 音频相关配置,不传则使用资产中配置的默认值。 说明
部分阿里云语音合成的音色没有经过效果验证,可能会出现效果上的差异
| |
Voice | string | 否 | TTS 播报发音人 code,从虚拟数字人开放平台-3D 资产管理页面获取,不传则使用资产中配置的发音人。 | guijie |
SpeechRate | integer | 否 | TTS 播报声音语速,取值范围:-500~500,不传则使用资产中配置的默认值。 [-500, 0, 500] 对应的语速倍速区间为 [0.5, 1.0, 2.0]。 -500 表示基准语速的 0.5 倍速; 0 表示基准语速的 1 倍速。1 倍速是指模型默认输出的合成语速,语速会依据每一个发音人略有不同,大概每秒钟 4 个字左右; 500 表示基准语速的 2 倍速; 计算方法如下: 0.8 倍速(1-1/0.8)/0.002 = -125 1.2 倍速(1-1/1.2)/0.001 = 166 | 0 |
Volume | integer | 否 | TTS 播报声音音量,取值范围:0~100,不传则使用资产中配置的默认值。 | 0 |
PitchRate | integer | 否 | TTS 播报声音语调,取值范围:-500~500,不传则使用资产中配置的默认值。 | 0 |
SampleRate | integer | 否 | 输出音频采样率(单位: Hz)。 枚举值:
| 16000 |
Callback | boolean | 否 | 本次视频合成任务是否需要事件回调,默认 false 不回调。平台支持在任务开始和任务结束时进行事件回调,具体可参考文档:数字人回调事件通知。 | false |
CallbackParams | string | 否 | 回调时需要透传的一些参数,json 格式字符串,callback=false 时不生效。 | { "xxx": "xxx" } |
ExtParams | string | 否 | 一些扩展参数。 | {"xxx": "xxx"} |
返回参数
TaskUuid 是该任务的唯一标识,请务必保存好。
示例
正常返回示例
JSON
格式
{
"RequestId": "13E0445E-CA7F-5DD3-9B0F-D4B39E0180F7",
"Success": false,
"Code": "502",
"Message": "这是一个错误",
"Data": {
"TaskUuid": "xxxxxx-xxxxx-xxxxx"
}
}
错误码
访问错误中心查看更多错误码。
变更历史
变更时间 | 变更内容概要 | 操作 | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
2024-01-08 | API 内部配置变更,不影响调用 | 看变更集 | ||||||||||
| ||||||||||||
2024-01-08 | API 内部配置变更,不影响调用 | 看变更集 | ||||||||||
| ||||||||||||
2023-08-01 | API 内部配置变更,不影响调用 | 看变更集 | ||||||||||
| ||||||||||||
2023-07-05 | OpenAPI 入参发生变更 | 看变更集 | ||||||||||
| ||||||||||||
2022-08-18 | API 内部配置变更,不影响调用 | 看变更集 | ||||||||||
|