提交根据一段文本离线生成2D数字人视频任务,该接口会立即返回一个TaskUuid作为本次提交任务的唯一id,后续可以根据TaskUuid调用查询和取消任务接口。
接口说明
提交根据一段文本离线生成 2D 数字人视频任务,该接口会立即返回一个 TaskUuid 作为本次提交任务的唯一 id,后续可以根据 TaskUuid 调用查询视频合成任务详情接口查询对应的任务的状态,当任务状态为已完成时可以获取到对应视频的下载地址,进行视频下载。在任务状态为未开始情况下,也可以通过 TaskUuid 调用取消视频合成任务接口,取消该任务。
调试
您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。
授权信息
下表是API对应的授权信息,可以在RAM权限策略语句的Action
元素中使用,用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下:
- 操作:是指具体的权限点。
- 访问级别:是指每个操作的访问级别,取值为写入(Write)、读取(Read)或列出(List)。
- 资源类型:是指操作中支持授权的资源类型。具体说明如下:
- 对于必选的资源类型,用背景高亮的方式表示。
- 对于不支持资源级授权的操作,用
全部资源
表示。
- 条件关键字:是指云产品自身定义的条件关键字。
- 关联操作:是指成功执行操作所需要的其他权限。操作者必须同时具备关联操作的权限,操作才能成功。
操作 | 访问级别 | 资源类型 | 条件关键字 | 关联操作 |
---|---|---|---|---|
avatar:SubmitTextTo2DAvatarVideoTask | create |
|
| 无 |
请求参数
名称 | 类型 | 必填 | 描述 | 示例值 |
---|---|---|---|---|
TenantId | long | 是 | 租户 ID,从虚拟数字人开放平台中获取的 TenantId | xxxxx |
App | object | 是 | 开发者应用信息,代表一个业务配置 | |
AppId | string | 是 | App ID。在开发者中心-实例管理页面获取对应的 appId,参考文档。 | 3d95xx946a |
Title | string | 是 | 提交的视频合成的任务标题,最长不超过 64 个字符 | 这是一个示例标题 |
Text | string | 是 | 合成文本, 最长不超过 1000 个字符。支持 SSML 指定 TTS 的多音字发音、停顿、特殊读法等,可参考: 2D 数字人视频合成使用指南。 | 这是一个示例文本 |
VideoInfo | object | 否 | 视频配置 | |
IsAlpha | boolean | 否 | 是否需要透明通道, 默认 false
| false |
AlphaFormat | integer | 否 | 透明通道格式 ,默认值 1
注意 当 isAlpha 为 false 时,该字段忽略。mov 格式的透明视频文件大小会非常大,不推荐使用,建议使用 webm 或者 mp4。 注意 2D 真人数字人部分人物不支持透明格式视频,目前平台官方数字人支持输出透明格式,定制形象需以定制时选择是否透明为准。 | 1 |
IsSubtitlesdeprecated | boolean | 否 | 是否需要字幕,默认值:true
警告 该字段已废弃,传入 true 和 false 都会生成单独字幕文件,新增 SubtitleEmbedded 字段可控制是否将字幕合并到视频中。 | true |
SubtitleEmbedded | boolean | 否 | 是否将字幕合并到视频中,默认值:false
| false |
BackgroundImageUrl | string | 否 | 有效可访问的 url 背景图片地址; 背景图片的分辨率必须要与生成的视频分辨率保持一致; 目前支持 jpg,jpeg,png 的图片格式 | 可访问的公网url地址 |
Resolution | integer | 否 | 生成的视频分辨率,不同人物支持不同分辨率:
| 3 |
SubtitleStyle | object | 否 | 字幕样式。 | |
Name | string | 否 | 字体名称,默认值:alibabapuhuiti | alibabapuhuiti |
Color | string | 否 | 字体颜色,十六进制颜色码 RGBA。 | #000000FF |
OutlineColor | string | 否 | 描边颜色,十六进制颜色码 RGBA。 | #FFFFFF00 |
Y | integer | 否 | 字幕 y 轴位置,画面顶端坐标为 0。默认值,1920x1080:984,1080x1920:1824。 | 984 |
Size | integer | 否 | 字体大小,最小值:36,最大值:72,默认值:36。 | 36 |
AudioInfo | object | 否 | 音频相关配置,不传则使用资产中配置的默认值。 | |
Voice | string | 否 | TTS 播报发音人 code,从虚拟数字人开放平台-2D 资产管理页面获取,不传则使用资产中配置的发音人。 | guijie |
SpeechRate | integer | 否 | TTS 播报声音语速,取值范围:-500~500,不传则使用资产中配置的默认值。 [-500, 0, 500] 对应的语速倍速区间为 [0.5, 1.0, 2.0]。 -500 表示基准语速的 0.5 倍速; 0 表示基准语速的 1 倍速。1 倍速是指模型默认输出的合成语速,语速会依据每一个发音人略有不同,大概每秒钟 4 个字左右; 500 表示基准语速的 2 倍速; 计算方法如下: 0.8 倍速(1-1/0.8)/0.002 = -125 1.2 倍速(1-1/1.2)/0.001 = 166 | 0 |
Volume | integer | 否 | TTS 播报声音音量,取值范围:0~100,不传则使用资产中配置的默认值。 | 50 |
PitchRate | integer | 否 | TTS 播报声音语调,取值范围:-500~500,不传则使用资产中配置的默认值。 | 0 |
SampleRate | integer | 否 | 输出音频采样率(单位: Hz)。 枚举值:
| 16000 |
AvatarInfo | object | 否 | 数字人形象相关配置。 | |
Code | string | 否 | 数字人形象 code,从虚拟数字人开放平台-2D 资产页面获取,不传则使用应用配置的默认形象。 | CH_xxxxx |
X | integer | 否 | 数字人图层相对于画面左上角横轴像素偏移量,原始状态默认为 0 | 0 |
Y | integer | 否 | 数字人图层相对于画面左上角纵轴像素偏移量,原始状态默认为 0 | 0 |
Width | integer | 否 | 数字人图层宽度 | 数字人底板视频为横屏:1920 数字人底板视频为竖屏:1080 |
Height | integer | 否 | 数字人图层高度 | 数字人底板视频为横屏:1080 数字人底板视频为竖屏:1920 |
Callback | boolean | 否 | 本次视频合成任务是否需要事件回调,默认 false 不回调。平台支持在任务开始和任务结束时进行事件回调,具体可参考文档:数字人回调事件通知。 | false |
CallbackParams | string | 否 | 回调时需要透传的一些参数,json 格式字符串,callback=false 时不生效。 | { "xxx": "xxx" } |
ExtParams | string | 否 | 一些扩展参数。 | { "xxx": "xxx" } |
返回参数
TaskUuid 是该任务的唯一标识,请务必保存好。
示例
正常返回示例
JSON
格式
{
"RequestId": "13E0445E-CA7F-5DD3-9B0F-D4B39E0180F7",
"Success": false,
"Code": "-10000000",
"Message": "这个一次错误消息。",
"Data": {
"TaskUuid": "xxxx-xxx-xxx"
}
}
错误码
访问错误中心查看更多错误码。
变更历史
变更时间 | 变更内容概要 | 操作 |
---|---|---|
2024-01-08 | API 内部配置变更,不影响调用 | 查看变更详情 |
2024-01-08 | API 内部配置变更,不影响调用 | 查看变更详情 |
2023-12-14 | API 内部配置变更,不影响调用 | 查看变更详情 |
2023-08-01 | OpenAPI 返回结构发生变更 | 查看变更详情 |
2023-06-25 | OpenAPI 入参发生变更 | 查看变更详情 |
2023-06-07 | API 内部配置变更,不影响调用 | 查看变更详情 |
2023-05-12 | API 内部配置变更,不影响调用 | 查看变更详情 |
2022-08-18 | API 内部配置变更,不影响调用 | 查看变更详情 |