本文介绍提交智能生产作业请求参数JobParamsOutput及查询智能生产作业返回参数Job补充说明。

字幕提取:CaptionExtraction

名称 类型 描述
Output String 如果JobParams设置了中英文分离,输出文件路径中支持{resultType}占位符,用来比较对应字幕结果文件是中文或英文,中文为zh,英文为en。
JobParams参数说明:
名称 类型 是否必填 描述
fps Int 采样帧率(可选),整数,取值范围为[2,10],默认5
roi List 字幕框选区域,若输入框选区域,则只对区域内的字幕进行提取,区域外的文字忽略(可选)。格式:[[top, bottom], [left, right]],默认
sep Boolean 是否中英文分离输出两个srt文件,可选,默认False
formatter String srt的字幕格式字符串(可选),例如:"{\an8}",默认
回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],"FunctionName":"CaptionExtraction",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success","State":"Succes"
}

Job参数说明:

名称 类型 描述
Result String 作业结果详细信息,成功结果信息如:{"Code":"Success","Message":"Successful.","Data":"{\"result\":[{\"file\":\"captionextraction/b48d02b58e9b6a0d1c13271bcf9aa6d7-161121379****.srt\"}]}"}

绿幕抠图:VideoGreenScreenMatting

JobParams参数说明:
名称 类型 是否必填 描述
mode String 替换的背景图片类型,目前仅支持file。
bgimage String 替换的背景图片,例如:http://example-image-****.example-location.aliyuncs.com/example/example.jpg
回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],"FunctionName":"VideoGreenScreenMatting",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明:

名称 类型 描述
Result String 作业结果详细信息,成功结果信息。示例如下:{"Code":"Success","Message":"Successful.","Data":"{\"result\":[{\"file\":\"videogreenscreenmatting/16e6bc5ca802e12429d082010164dba3-160275535****_matting.mp4\"}]}"}

副歌检测:MusicSegmentDetect

JobParams参数说明:
名称 类型 是否必填 描述
回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"MusicSegmentDetect",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明:

名称 类型 描述
Result String 作业结果详细信息,成功结果信息。示例如下:{"Code":"Success","Data":"{\"result\":[{\"start\":39.32,\"end\":63.85,\"title\":\"副歌\"},{\"start\":86.69,\"end\":114.45,\"title\":\"副歌\"},{\"start\":135.75,\"end\":160.27,\"title\":\"副歌\"}]}","Message":"Successful."}

视频去字幕:VideoDetext

JobParams参数说明:
名称 类型 是否必填 描述
Text List 目标字幕框位置。目前最多支持两个目标字幕。例如:[[bx1, by1, bw1, bh1], [bx2, by2, bw2, bh2]]。
说明 一个字幕框中须同时包含bx、by、bw、bh。
  • bx:字幕框距离左上角的归一化x轴坐标相对于视频宽度比例,例如0.1。
  • by:字幕框距离左上角的归一化y轴坐标相对于视频高度比例,例如0.0。
  • bw:归一化宽度相对视频宽度比例,例如0.3。
  • bh:归一化高度相对视频高度比例,例如0.2。
回调格式

JSON格式

{
  "Code":"Success",
  "Details":[], 
  "FunctionName":"VideoDetext",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明:

名称 类型 描述
Result String 作业结果详细信息,成功结果信息。示例如下:{"Details":[],"Message":"success","Code":"Success"}

视频横转竖:VideoH2V

JobParams参数说明:
名称 类型 是否必填 描述
回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"VideoH2V",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明:

名称 类型 描述
Result String 作业结果详细信息,成功结果信息。示例如下:{"Details":[],"Message":"success","Code":"Success"}

视频去图标:VideoDelogo

JobParams参数说明:
名称 类型 是否必填 描述
Logo String 目标logo框位置,[xmin, ymin, width, height],目前最多支持两个目标logo框,例如:[[0, 0, 0.3, 0.3], [0.7, 0, 0.3, 0.3]]
回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"VideoDelogo",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明:

名称 类型 描述
Result String 作业结果详细信息,成功结果信息。示例如下:{"Details":[],"Message":"success","Code":"Success"}

智能封面:Cover

JobParams参数说明:
名称 类型 是否必填 描述
Model String 智能封面模型,为空时输出图片封面,为gif时输出动图封面。
回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"Cover",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明:

名称 类型 描述
Result String 作业结果详细信息,成功结果信息。示例如下:{"Details":[],"Message":"success","Code":"Success"}{"Message":"success","Data":"[{\"Score\":8.270855992569906,\"Time\":\"28278.25\",\"Url\":\"cover/test-00001.jpg\"},{\"Score\":7.474117489692728,\"Time\":\"25942.583333333332\",\"Url\":\"cover/test-00002.jpg\"}]","Code":"Success"},其中Score为封面结果置信度,Time为封面帧时间戳,Url为封面文件路径。

视频摘要:VideoClip

JobParams参数说明:
名称 类型 是否必填 描述
回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"VideoClip",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明:

名称 类型 描述
Result String 作业结果详细信息,成功结果信息。示例如下:

{"Code":"Success","Message":"Successful.","Data":"{\"result\":[{\"file\":\"videoclip/16e6bc5ca802e12429d082010164****-1602755353502-origin.mp4\"}]}"}

图片横转竖:ImageH2V

JobParams参数说明:
名称 类型 是否必填 描述
回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"ImageH2V",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明:

名称 类型 描述
Result String 作业结果详细信息,成功结果信息。示例如下:{"Details":[],"Message":"success","Code":"Success"}

图片去图标:ImageDelogo

JobParams参数说明:
名称 类型 是否必填 描述
回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"ImageDelogo",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明:

名称 类型 描述
Result String 作业结果详细信息,成功结果信息。示例如下:{"Details":[],"Message":"success","Code":"Success"}

PPT拆条:VideoSplit

JobParams参数说明:
名称 类型 是否必填 描述
回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"VideoSplit",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明:

名称 类型 描述
Result String 作业结果详细信息,成功结果信息如:{"Code":"Success","Data":"{\"splitResult\":[{\"beginTime\":1.0,\"endTime\":44.57,\"title\":\"内容开始\"},{\"beginTime\":44.57,\"endTime\":71.16,\"title\":\"淘宝网\"},{\"beginTime\":71.16,\"endTime\":106.33,\"title\":\"低价风景\"},{\"beginTime\":106.33,\"endTime\":126.0,\"title\":\"聚划算\"}]}","Message":"Successful."}

节奏检测:AudioBeatDetection

JobParams参数说明:
名称 类型 是否必填 描述
回调格式

JSON格式

{
  "Code":"Success",
  "Details":[],
  "FunctionName":"AudioBeatDetection",
  "JobId":"39f8e0bc005e4f309379701645f4****",
  "Message":"success",
  "State":"Success",
  "Type":"IProduction"
}

Job参数说明:

名称 类型 描述
Result String 作业结果详细信息,成功结果信息如:{"Code":"Success","Data":"{\"result\":[{\"file\":\"detectresult/normalvideo-161225931****.txt\"}]}","Message":"Successful."}

混音处理:AudioMixing

JobParams参数说明:
名称 类型 是否必填 描述
inputs String 待混合的音轨文件地址列表,目前只支持一个,例如:{"file":"oss://example-bucket-****.oss-cn-shanghai.aliyuncs.com/2.mp4"}
回调格式

JSON格式

{
  "Code":"Success",
  "FunctionName":"AudioMixing",
  "JobId":"158688059d8443a68b78a65e55b3****",
  "Message":"Successful.",
  "State":"Success",
  "Type":"IProduction",
  "UserData":"test"
}

Job参数说明:

名称 类型 描述
Result String 作业结果详细信息,成功结果信息如:{"Message":"Successful.","Data":"{\"result\":[{\"file\":\"audiomix/alibaba-161283935****-origin.mp4\"}]}","Code":"Success"}

3D风格、人脸风格化:ImageCartoonize

Output参数说明:

名称 类型 描述
Output String 路径中支持{resultType}占位符,用来区分结果文件是卡通化结果图/原图,卡通化结果为result,原图为origin。

回调示例

JSON格式

{
 "Code":"Success",
 "Details":[],
 "FunctionName":"ImageCartoonize",
 "JobId":"39f8e0bc005e4f309379701645f4744c",
 "Message":"success",
 "State":"Success",
 "Type":"IProduction"
}

Job参数说明:

名称 类型 描述
Result String 作业结果详细信息,成功结果信息如:{"Code":"Success","Data":"{\"result\":[{\"file\":\"iproduction/test-result.jpg\"},{\"file\":\"iproduction/test-origin.jpg\"}]}","Message":"Successful."}

音质检测:AudioQualityAssessment

Job参数说明:

名称 类型 描述
Result String 作业结果详细信息,成功结果信息如下。

Result结果信息:

{
  "Code" : "Success",
  "Data" : "{
    \"result\":[{
        \"Discontinuity\":\"Good\",
        \"Loudness\":\"Excellent\",
        \"Worst MOS(0-5)\":\"0.38\",
        \"Discontinuity(0-5)\":\"3.52\",
        \"Speech Ratio\":\"48.55\",
        \"Loudness(0-5)\":\"4.91\",
        \"Worst Discontinuity(0-5)\":\"0.88\",
        \"Worst Coloration(0-5)\":\"0.42\",
        \"Channel\":\"1\",
        \"Coloration(0-5)\":\"0.99\",
        \"Bad Mute Ratio(%)\":\"0.0\",
        \"Time\":\"2022-12-02 16:14:06\",
        \"Noisiness(0-5)\":\"3.28\",
        \"MOS\":\"Poor\",
        \"Worst Noisiness(0-5)\":\"0.91\",
        \"Double Talk Ratio(%)\":\"19.23\",
        \"Input\":\"/home/admin/algo/quality****/example.wav\",
        \"Total Duration\":\"42.78\",
        \"Noisiness\":\"Good\",
        \"Tag\":\"Valid\",
        \"MOS(0-5)\":\"1.01\",
        \"Loudness(-90dB-0dB)\":\"-0.59\",
        \"Coloration\":\"Bad\",
        \"Saturated Ratio(%)\":\"37.55\"
    },
    {
        \"Discontinuity\":\"Fair\",
        \"Loudness\":\"Excellent\",
        \"Worst MOS(0-5)\":\"0.65\",
        \"Discontinuity(0-5)\":\"2.45\",
        \"Speech Ratio\":\"41.68\",
        \"Loudness(0-5)\":\"4.52\",
        \"Worst Discontinuity(0-5)\":\"0.66\",
        \"Worst Coloration(0-5)\":\"0.72\",
        \"Channel\":\"2\",
        \"Coloration(0-5)\":\"2.34\",
        \"Bad Mute Ratio(%)\":\"0.0\",
        \"Time\":\"2022-12-02 16:14:06\",
        \"Noisiness(0-5)\":\"2.53\",
        \"MOS\":\"Poor\",
        \"Worst Noisiness(0-5)\":\"0.67\",
        \"Double Talk Ratio(%)\":\"25.93\",
        \"Input\":\"/home/admin/algo/quality****/example.wav\",
        \"Total Duration\":\"42.78\",
        \"Noisiness\":\"Fair\",
        \"Tag\":\"Valid\",
        \"MOS(0-5)\":\"1.69\",
        \"Loudness(-90dB-0dB)\":\"-4.82\",
        \"Coloration\":\"Fair\",
        \"Saturated Ratio(%)\":\"0.0\"
    }]
  }",
  "Message" : "Successful."
}

参数说明

参数 说明
Time 时间戳,对输入文件执行打分的时刻。
Input 输入文件名。
Total Duration 文件时长,单位为秒。
Speech Ratio 语音时长占比,取值范围为[0,100],单位为百分比(%)。
Tag 标签,用于说明检测的有效性。
  • Valid : 检测有效,即后续关键指标和MOS都是有效的。
  • File too Short:输入文件时长小于2s。
  • Mute:全程完全静音。
  • Voice too Short:话音时长小于2s
说明
  • 四个事件互斥。
  • 后三种情况的MOS,Discontinuity,Coloration,Noisiness无意义,数值上会给出0。
MOS(0-5) 文件平均MOS,描述语音部分的质量,取值范围[0,5]。
MOS 分值描述。取值如下:
  • (4, 5]:Excellent
  • [3, 4):Good
  • [2, 3):Fair
  • [1, 2):Poor
  • [0, 1):Bad
Discontinuity(0-5) 语音连续性,当发生采集卡顿、双讲抑制、网络丢包时,连续性分值会下降。取值范围[0,5]。
Discontinuity 分值描述。取值如下:
  • (4, 5]:Excellent
  • [3, 4):Good
  • [2, 3):Fair
  • [1, 2):Poor
  • [0, 1):Bad
Coloration(0-5) 语音清晰度、可懂度,如环境混响较大,码率较低(或编码错误)、发音含糊不清时,语音自然度分值降低。取值范围[0,5]。
Coloration 分值描述。取值如下:
  • (4, 5]:Excellent
  • [3, 4):Good
  • [2, 3):Fair
  • [1, 2):Poor
  • [0, 1):Bad
Noisiness(0-5) 噪音严重程度,取值范围[0,5]。
说明 噪音的几个来源:环境噪声(如风扇,街道),某些较差设备的底噪,以及拾音设备回声处理不干净所残留的杂音等等,这些噪音如果没有良好的降噪处理,会使噪音问题较突出。
Noisiness 分值描述。取值如下:
  • (4, 5]:Excellent
  • [3, 4):Good
  • [2, 3):Fair
  • [1, 2):Poor
  • [0, 1):Bad
Loudness(0-5) 人声响度,即人声音量的大小,声音清晰洪亮分支偏高,声音很小几乎听不到,则分值趋近于0。取值范围[0,5]。
Loudness 分值描述。取值如下:
  • (4, 5]:Excellent
  • [3, 4):Good
  • [2, 3):Fair
  • [1, 2):Poor
  • [0, 1):Bad
Loudness(-90dB-0dB) 平均语音音量。取值范围[-90,0],单位为分贝(dB)。
  • 从分贝角度描述了人声音量的大小,一般小于-24dB时,听感上人声会偏小。
  • 默认值:-90.0,表示未检测到明确的语音成分。
Double Talk Ratio(%) 双讲占比,用于辅助判断连续性Discontinuity分值较低时的可能因素。取值范围[0,100],单位为百分比(%)。
说明 此处双讲统计的是双端都有声音,而不是严格的话音,例如设备漏残留回声时,可能会被计为“双讲”,但因为这个情况也会使Discontinuity变差,所以仍有助于辅助判断。
Bad Mute Ratio(%) 异常静音帧占比,对双讲时段之外的话音进行异常静音统计(排除双讲剪切所致的静音帧)。取值范围[0,100],单位为百分比(%)。
Saturated Ratio(%) 语音段中出现爆音占有话段的比例,用于辅助判断采集音量过大导致的大范围爆音问题。取值范围[0,100],单位为百分比(%)。
Worst MOS(0-5) 打分过程中的最低MOS,取值范围[0,5]。
Worst Discontinuity(0-5) 打分过程中最严重的断续程度,取值范围[0,5]。
Worst Noisiness(0-5) 打分过程中噪声最大的程度,取值范围[0,5]。
Worst Coloration(0-5) 打分过程中最差的语音自然度,取值范围[0,5]。