调用SubmitIProductionJob执行智能封面和视频去字幕等智能生产任务-智能媒体服务-阿里云-智能媒体服务(IMS)-阿里云帮助中心

调用SubmitIProductionJob提交智能生产任务。

接口说明

该接口为异步接口，提交任务后返回任务 ID（此时任务尚未完成，任务将进入后台排队异步执行），最终结果将通过回调通知，也可通过查询智能生产任务主动查询任务状态。

调试

您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。

调试

授权信息

下表是API对应的授权信息，可以在RAM权限策略语句的Action元素中使用，用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下：

操作：是指具体的权限点。
访问级别：是指每个操作的访问级别，取值为写入（Write）、读取（Read）或列出（List）。
资源类型：是指操作中支持授权的资源类型。具体说明如下：
- 对于必选的资源类型，用前面加 * 表示。
- 对于不支持资源级授权的操作，用全部资源表示。
条件关键字：是指云产品自身定义的条件关键字。
关联操作：是指成功执行操作所需要的其他权限。操作者必须同时具备关联操作的权限，操作才能成功。

操作

访问级别

资源类型

条件关键字

关联操作

ice:SubmitIProductionJob

create

*全部资源

*

无

请求参数

名称	类型	必填	描述	示例值
Name	string	否	任务名称，长度不超过 100 字符。	测试任务
FunctionName	string	是	需要使用的算法功能名称。取值： Cover：智能封面 VideoClip：视频摘要 VideoDelogo：视频去图标 VideoDetext：视频去字幕 CaptionExtraction：字幕提取 VideoGreenScreenMatting：绿幕抠图 FaceBeauty：视频美颜 VideoH2V：视频横转竖 MusicSegmentDetect：副歌检测 AudioBeatDetection：节奏检测 AudioQualityAssessment：音质检测 SpeechDenoise：语音降噪 AudioMixing：音频混音 MusicDemix：声伴分离	Cover
Input	object	是	输入媒体，支持 OSS 或媒资 ID。不同算法功能 Input 输入的文件要求不同，详见下方补充说明。
Type	string	是	媒体类型： OSS：OSS 路径 Media：媒资 ID	OSS
Media	string	是	输入媒体，支持 OSS 地址和媒资 ID 两种。 oss 地址规则为：（两种形式选一种即可） oss://bucket/object http(s)://bucket.oss-[regionId].aliyuncs.com/object 其中 bucket 为和当前项目处于同一区域的 oss bucket 名称，object 为文件路径。	oss://bucket/object
Output	object	是	输出媒体，支持 OSS 或媒资 ID。不同算法功能 Output 输出的文件不同，详见下方补充说明。
Type	string	是	媒体类型： OSS：OSS 路径 Media：媒资 ID	OSS
Biz	string	否	媒资所属业务	IMS
Media	string	是	输出媒体。当 Type 为 OSS 时填入 OSS 地址，Type 为 Media 时填入媒资 ID。 OSS 地址规则为：（两种形式选一种即可） oss://bucket/object http(s)://bucket.oss-[RegionId].aliyuncs.com/object 其中 bucket 为和当前项目处于同一区域的 oss bucket 名称，object 为文件路径。媒资 ID：支持指定已有 MediaId 不需要指定 Biz，随源支持新建 MediaId（MediaId 为空）根据 Biz 决定写入 IMS 还是 VOD 媒资，未指定 Biz 默认随源或 IMS 说明 OSS 地址路径支持占位符，如：oss://example-****/iproduction/{source}-{timestamp}-{sequenceId}.png。当前支持以下几种占位符： {source}：填充输入文件名 {timestamp}：填充 Unix 时间戳 {sequenceId}：填充生成序号 {resultType}：填充输出文件类型（服务端决定）占位符不必须，但对于多输出算法，比如智能封面等，需要注意加入序号占位符确保输出文件路径不重复。	oss://bucket/object
OutputUrl	string	否	当 Type=Media 时，指定输出文件 OSS 地址。bucket 必须注册在 IMS 或 VOD 中。	http(s)://bucket.oss-[RegionId].aliyuncs.com/object
TemplateId	string	否	模板 ID	**20b48fb04483915d4f2cd8ac**
JobParams	string	否	算法作业参数，JSON 对象，不同算法对应参数内容不同。详见补充说明。	{"Model":"gif"}
ScheduleConfig	object	否	任务调度配置信息
PipelineId	string	否	管道 ID	5246b8d12a62433ab77845074039c3dc
Priority	integer	否	取值范围为 1 到 10，数值越小优先级越高。	6
UserData	string	否	用户自定义数据，获取结果时原样返回。长度不超过 256 字符。	{"test":1}
ModelId	string	否	算法模型 ID。如果为空，则选择对应功能的默认模型（此参数保持为空即可，一般无需传入，直接使用默认模型）。当前有以下算法功能存在非默认模型可供选择： VideoDetext ModelId = algo-video-detext-new，效果更好的字幕擦除算法，速度比默认算法慢，费用比默认算法高

Input 和 Output 字段说明

Cover

输入一个视频文件，输出若干张图片（默认 3 张，需要通过占位符区分），格式为 png 或 gif（取决于 JobParams 中参数，生成静态图或动态图）。

VideoDelogo

输入一个视频文件，输出擦除图标后的视频（格式为 mp4）。

VideoDetext

输入一个视频文件，输出擦除字幕后的视频（格式为 mp4）。

CaptionExtraction

输入一个视频文件，输出字幕文件（SRT 格式）。

VideoGreenScreenMatting

输入一个视频文件，输出绿幕抠图后的视频（格式为 mp4 或 webm，取决于 JobParams 参数）。

FaceBeauty

输入一个视频文件，输出美颜后的视频（格式为 mp4）。

VideoH2V

输入一个视频文件，输出横转竖后的视频（格式为 mp4）。

MusicSegmentDetect

输入一个音频文件，输出副歌检测后的结果信息文件（Json 格式）。

AudioBeatDetection

输入一个音频文件，输出节奏检测后的结果信息文件（Json 格式）。

AudioQualityAssessment

输入一个音频文件，无输出文件。音质检测结果放在 QueryIProductionJob 中直接返回。

SpeechDenoise

输入一个音频文件，输出降噪后的音频（格式为 wav）。

AudioMixing

输入一个待混音的音频文件，输出混音后的音频（格式为 wav）。混入的音频文件如何输入详见下面的 JobParams 参数。

MusicDemix

输入一个音频文件（歌曲），输出声伴分离后的两个音频（Output 路径中需要传入{resultType}占位符，分别代表人声和背景声）。

JobParams 的 JSON 字段说明

Cover

Model：String 类型，智能封面模型，为空时输出图片封面，为 gif 时输出动图封面。

VideoDelogo

LogoModel：String 类型，去除的 logo 类型，取值：tv（通用台标 - 电视台），internet（通用台标 - 网络媒体），该字段可多选，通过逗号分隔。
Boxes：String 类型，目标 logo 框位置，以左上角为原点的归一化距离，[xmin, ymin, width, height]，目前最多支持两个目标 logo 框，例如："[[0, 0, 0.3, 0.3], [0.7, 0, 0.3, 0.3]]"。

VideoDetext

LimitRegion：list 类型，限定字幕检测区域，以左上角为原点的归一化距离，[xmin, ymin, width, height]，可支持多个检测区域，例如：[[0, 0, 0.3, 0.3], [0.7, 0, 0.3, 0.3]]。注意，不设置该参数时，默认检测区域为视频下方 30%区域。
Time：指定全局擦除时间（单位 s），list 类型，包括起始时间和结束时间，[start_time, end_time]，例如[5, 20]，表示只擦除视频的 5~20 秒之间的字幕。
- Time 参数可以是一维数组，如[5, 20]，指定一个时间段
- Time 参数也可以是二维数组，如[[5, 20], [25, 43], [51, 80]]，指定多个时间段（只有当 modelId=algo-video-detext-new 时支持）

CaptionExtraction

fps：采样帧率（可选），整数，取值范围为[2,10]，默认 5。
roi：字幕框选区域（只对区域内的字幕进行提取），格式：[[top, bottom], [left, right]]，为归一化取值（如下半部分[[0.5, 1], [0, 1]]）。不传此值，默认识别视频底部 1/4 区域。
lang：识别语言，ch（中文）、en（英文），ch_ml（中英混合）。默认 ch。
track：如果传"main"，表示只提取主字幕轨道。不传时，默认提取区域内出现的所有字幕。

VideoGreenScreenMatting

bgimage：抠图后叠加的背景图片，例如：http://example-image-****.example-location.aliyuncs.com/example/example.jpg。如果不传该参数，则输出带透明通道的 WEBM 视频。

FaceBeauty

beauty_params：美颜功能参数，填写示例： "whiten=20,smooth=50,face_thin=50"，详见参数字段说明

VideoH2V

无

MusicSegmentDetect

无

AudioBeatDetection

无

AudioQualityAssessment

无

SpeechDenoise

输入音频要求：格式需为 WAV，采样率为 16khz 或 48khz。

AudioMixing

inputs：待混合的音轨文件地址列表，目前只支持一个，例如：{"file":"http://example-bucket-****.oss-cn-shanghai.aliyuncs.com/2.mp4"}

MusicDemix

无

返回参数

名称	类型	描述	示例值
	object	Schema of Response
RequestId	string	请求 ID	C1849434-FC47-5DC1-92B6-F7EAAFE3851E
JobId	string	智能任务 ID	**20b48fb04483915d4f2cd8ac**

示例

正常返回示例

JSON格式

{
  "RequestId": "C1849434-FC47-5DC1-92B6-F7EAAFE3851E",
  "JobId": "****20b48fb04483915d4f2cd8ac****"
}

错误码

访问错误中心查看更多错误码。

变更历史

更多信息，参考变更详情。