首页 媒体处理 API参考指南 API目录 智能标签接口 QuerySmarttagJob - 查询智能标签作业

QuerySmarttagJob - 查询智能标签作业

查询智能标签作业。

接口说明

  • 本接口返回数据中包含视频中的人物、场景、关键词等各种算法智能分析得到的数据。
  • 智能标签功能,目前开通的地域为华北2(北京)、华东2(上海)、华东1(杭州),其他地域暂不支持。

QPS限制

本接口的单用户QPS限制为100次/秒。超过限制,API调用会被限流,这可能会影响您的业务,请合理调用。更多信息,请参见QPS限制

调试

您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。

调试

授权信息

当前API暂无授权信息透出。

请求参数

名称类型必填描述示例值
JobIdstring

需要查询的智能标签作业ID。可以从提交智能标签作业的返回参数中获取。

39f8e0bc005e4f309379701645f4****
Paramsstring

额外的请求参数,使用JSON字符串表示,例如:{"labelResultType":"auto"}。其中,labelResultType为String类型,可取值:

  • auto:机器打标结果

  • hmi:人机协同结果

{"labelResultType":"auto"}

返回参数

名称类型描述示例值
object

返回参数。

JobStatusstring

任务状态,可取值:

  • Success:处理成功。

  • Fail:处理失败。

  • Processing:处理中。

  • Submitted:已提交等待处理。

Success
RequestIdstring

请求ID。

7B117AF5-2A16-412C-B127-FA6175ED1AD0
UserDatastring

通过MNS回调时透传回来的信息。消息格式请参见下文回调消息格式定义

example UserData ****
Resultsarray

分析结果对象数组。

object

分析结果对象数组详细信息。

Typestring

分析结果的类型。

  • 标签1.0分析结果类型:

    • TextLabel:文本标签
    • VideoLabel:视频标签
    • ASR:语音识别原始结果(默认不返回)
    • OCR:文字识别原始结果(默认不返回)
    • Process: 算法原始结果JSON文件链接(默认不返回),JSON结构请参见补充说明
  • 标签2.0分析结果类型:

    • CPVLabel(人机)
    • Meta:视频标题等信息(默认不返回)
  • 标签2.0-custom分析结果类型:

    • CPVLabel(人机)
    • Meta:视频标题等信息(默认不返回)
Meta
Datastring

分析结果的具体数据,以JSON字符串表示。不同Type的数据结构见下文Result参数说明

{"title":"example-title-****"}

回调消息格式定义

当智能标签任务执行状态改变时,mps会发送消息到用户指定的queue中(如何指定回调queue详见mps的更新管道接口)。消息体是一个JSON字符串,包含字段如下:

名称类型描述
TypeString固定字符串“smarttag”,表示智能标签任务
JobIdString任务唯一ID
StateString任务当前状态,与QuerySmarttagJob中的JobStatus一致
UserDataString用户在SubmitSmarttagJob中传入的UserData

Result参数说明

VideoLabel数据结构

名称类型描述
personsJSONArray检测到的人物结果
persons.nameString识别到的人物名称
persons.categoryString人物类型,取值如下:celebrity(名人);politician(政治人物);sensitive(敏感人物);unknown(未知人物);自定义人物库ID(识别到的人物为自定义人物时返回)
persons.ratiodouble人物出现率,取值:0~1
persons.occurrencesJSONArray人物出场详细信息
persons.occurrences.scoredouble置信度得分
persons.occurrences.fromdouble检测到人物的起始时间,单位(秒)
persons.occurrences.todouble检测到人物的结束时间,单位(秒)
persons.occurrences.positionJSONObject人脸坐标
persons.occurrences.position.leftTopint[]左上角x,y坐标
persons.occurrences.position.rightBottomint[]右下角x,y坐标
persons.occurrences.timestampdouble人脸坐标所在的时间戳,单位为秒
persons.occurrences.sceneString人物镜头,包括:closeUp(特写);medium-closeUp(近景);medium(中景);medium-long(全景)
tagsJSONArray检测到的物体场景等标签,详见下表举例
tags.mainTagNameString主标签
tags.subTagNameString子标签
tags.ratiodouble出现率,取值:0~1
tags.occurrencesJSONArray出现详细信息
tags.occurrences.scoredouble置信度得分
tags.occurrences.fromdouble起始时间,单位(秒)
tags.occurrences.todouble结束时间,单位(秒)
classificationsJSONArray视频分类信息
classifications.scoredouble置信度得分
classifications.category1String一级分类,比如:生活、动漫、汽车等等
classifications.category2String二级分类,比如生活下面细分为:健康、家居等等

视频Tags标签举例说明

mainTagNamesubTagName
节目比如:爸爸去哪儿、欢乐喜剧人等
人物角色比如:医生、护士、教师等
物体比如:钢琴、水杯、桌子、西红柿炒鸡蛋、小汽车、化妆品等
标识比如:CCTV1、CCTV2、优酷、东方卫视等
动作事件比如:跳舞、接吻、拥抱、会晤、唱歌、打电话、骑马、打斗等
地域比如:北京天安门、自由女神像、乐山大佛、中国、美国等
场景比如:卧室、地铁站、梯田、海滩、沙漠等

ImageLabel数据结构

名称类型描述
personsJSONArray检测到的人物结果
persons.nameString识别到的人物名称
persons.categoryString人物类型,取值如下:celebrity(名人);politician(政治人物);sensitive(敏感人物)
persons.scoredouble人物置信度得分
persons.positionJSONObject人脸坐标
persons.position.leftTopint[]左上角x,y坐标
persons.position.rightBottomint[]右下角x,y坐标
persons.sceneString人物镜头,包括:closeUp(特写);medium-closeUp(近景);medium(中景);medium-long(全景)
tagsJSONArray检测到的物体场景等标签,详见下表举例
tags.mainTagNameString主标签
tags.subTagNameString子标签
tags.scoredouble置信度得分

图片tags标签举例说明

mainTagNamesubTagName
人物角色比如:医生、护士、教师等
地域比如:北京天安门、自由女神像、乐山大佛、中国、美国等
动作事件比如:讲话等
标识比如:CCTV1、CCTV2、优酷、东方卫视等
动作事件比如:跳舞、接吻、拥抱、会晤、唱歌、打电话、骑马、打斗等
物体比如:钢琴、水杯、桌子、西红柿炒鸡蛋、小汽车、化妆品等
场景比如:卧室、地铁站、梯田、海滩、沙漠等

TextLabel数据结构(来源于ASR和OCR)

名称类型描述
tagsJSONArray文本标签信息,详见下表举例
tags.nameString标签类别
tags.valueString标签值,可能有多个标签值,以半角逗号(,)分割

图片tags标签举例说明

namevalue
地域比如:北京天安门、自由女神像、乐山大佛、中国、美国等
组织机构比如:中国生动物保护协会、中央广播电视台等
标识比如:耐克、李宁
关键词比如:中坚力量

CPVLabel数据结构

  • cates:类目(一级类目、二级类目、三级类目)
  • entities:类目属性(带有知识图谱信息)
  • hotwords:热点词(用户关注的名单)
  • freeTags:自由标签(关键词)
名称类型示例值说明
typeStringhmi结果类型。取值:hmi(人机协同结果)、autp(机器打标结果)
catesJSONArray-分类类目结果
cates.labelLevel1String旅游一级标签
cates.labelLevel2String旅游风光二级标签
cates.labelString""标签名称,算法可能返回空
cates.appearanceProbabilitydouble0.96出现率
cates.detailInfoJSONArray--
cates.detailInfo.scoredouble0.9置信度
cates.detailInfo.startTimedouble0.021开始时间
cates.detailInfo.endTimedouble29.021结束时间
entitiesJSONArray--
entities.labelLevel1String地域一级标签
entities.labelLevel2String地标二级标签
entities.labelString黄果树瀑布标签名称
entities.appearanceProbabilitydouble0.067出现率
entities.knowledgeInfoString{"name": "黄果树瀑布", "nameEn": "Huangguoshu Waterfall", "description": "亚洲四大瀑布之一"}知识图谱信息,全部字段后附表:影视综IP图谱、音乐图谱、人物图谱、地标图谱、物体图谱。
entities.detailInfoJSONArray--
entities.detailInfo.scoredouble0.33292606472969055置信度
entities.detailInfo.startTimedouble6.021开始时间
entities.detailInfo.endTimedouble8.021结束时间
entities.detailInfo.trackDataJSONArray-实体标签结构化信息
entities.detailInfo.trackData.scoredouble0.32置信度
entities.detailInfo.trackData.bboxinteger[]23,43,45,67坐标框
entities.detailInfo.trackData.timestampdouble7.9时间戳
hotwordsJSONArray--
hotwords.labelLevel1String关键词一级标签
hotwords.labelLevel1String关键词二级标签
hotwords.labelLevel2String""二级标签
hotwords.labelString中国气象局看点词内容
hotwords.appearanceProbabilitydouble0.96出现率
hotwords.detailInfoJSONArray
hotwords.detailInfo.scoredouble1.0置信度
hotwords.detailInfo.startTimedouble0.021开始时间
hotwords.detailInfo.endTimedouble29.021结束时间
freeTagsJSONArray
freeTags.labelLevel1String关键词一级标签
freeTags.labelLevel2String""二级标签
freeTags.labelString中央气象台看点词内容
freeTags.appearanceProbabilitydouble0.96出现率
freeTags.detailInfoJSONArray
freeTags.detailInfo.scoredouble0.9置信度
freeTags.detailInfo.startTimedouble0.021开始时间
freeTags.detailInfo.endTimedouble29.021结束时间

语音识别ASR结果

名称类型描述
detailsJSONArray任务详细结果
details.fromdouble开始时间戳,单位(秒)
details.todouble结束时间戳,单位(秒)
details.contentString识别出的文本内容

文本识别OCR结果

名称类型描述
detailsJSONArray任务详细结果
details.timestampdouble时间戳信息,单位(秒)
details.infoJSONArray该时间点识别出的具体信息
details.info.scoredouble置信度得分
details.info.positionJSONObject文字坐标
details.info.position.leftTopint[]左上角x,y坐标
details.info.position.rightBottomint[]右下角x,y坐标
details.info.contentString识别出的文本内容
details.info.textTypeString文本类型,取值:0(正常字幕)、1(滚动字幕)、2(定长标识性字幕,持续时间3秒以上)

Meta标注结果

说明如果客户没有使用人机标注,在使用SubmitSmarttagJob提交任务时如果指定了needMetaData,目前QuerySmarttagJob返回结果时会返回原始客户输入的标题。
名称类型描述
titleString标题

字幕提取结果Subtitle

名称类型描述
detailsJSONArray任务详细结果
details.allResultUrlString全部字幕结果URL,URL有效期为任务完成后半年内可有效访问
details.chResultUrlString中文结果URL,URL有效期为任务完成后半年内可有效访问
details.engResultUrlString英文结果URL,URL有效期为任务完成后半年内可有效访问
说明字幕结果URL内容:序号+时间段+字幕内容(每句字幕为一行)

示例

正常返回示例

JSON格式

{
  "JobStatus": "Success",
  "RequestId": "7B117AF5-2A16-412C-B127-FA6175ED1AD0",
  "UserData": "example UserData ****",
  "Results": {
    "Result": [
      {
        "Type": "Meta",
        "Data": "{\"title\":\"example-title-****\"}"
      }
    ]
  }
}

错误码

访问错误中心查看更多错误码。

变更历史

变更时间变更内容概要操作
暂无变更历史

输出信息的解析

输出参数描述
name结果模块名:其中"tag"为标签结果,所有标签按照统一格式输出;"asr"为语音结果;“ocr”为文本识别结果。
result产品级结果列表,目前只包含内容分析产品
content产品级结果结构体
data具体算法结果列表

下面分name的值来说明字段: name = 'tag' //融合标签结果

输出参数描述
labelLevel1一级标签分类,如视频分类、节目、人脸、标识、人物角色、地域、场景、动作事件、组织机构、关键词等
labelLevel2二级标签分类,其中人脸的二级标签类分组为:政治人物、敏感人物、名人、未知人脸、自定义,多种类型以','隔开
label细粒度的标签
knowledgeInfo知识图谱信息(为字典)
appearanceProbability标签的出场率,表示标签在视频中时间占比
isWhite表示该标签是否命中了用户定义的白名单
detailInfo该结构存储了标签出现的时间区间、score、区域、来源等详细信息
score是标签的置信度信息,部分标签置信度会不存在,不存在置信度时统一设置为-1. 比如挖掘出来的未知人脸的score分数为-1
bboxes标签区域位置信息,(将废弃,不建议使用),依次为区域左顶点X坐标、Y坐标、区域宽度、区域高度,后续逐渐废弃,信息迁移到trackData中
trackData在该时间段内等间隔记录在视频时刻上的算法结果,包含bbox、score、attributes、landmark、timestamp几个字段记录算法结果
scoretrackData下的score,代表当前时刻的算法置信度,其中人脸算法为人脸检测的score
bboxtrackData下的bbox,标签区域位置信息,
格式为[x1,y1,x2,y2],左上顶点,右下顶点。
landmarktrackData下的landmark,标签区域关键像素信息
attributestrackData下的attributes,有property、value、score字段,分别为该时刻的属性类、属性值、属性分数,表示标签在该帧的属性信息,如人脸的表情信息等
timestamptrackData下的timestamp,标记当前时刻
source标签来源:'vision'为视觉来源、'audio'为音频来源、'text'为文本来源
subSource为算法模型层次的来源,用户可不用关心
metaData记载了标签的非统一信息,不同类型的标签会有所差别,可通过判断某个字段是否为空来确定该标签是否具备该字段信息,具体子字段如下
metaData.sampleUrl标签的代表图,如人脸识别中预测人物和该图是一致的,也是我们定义标签的标准
metaData.feature标签代表图的特征,如人脸识别中的最佳人脸的特征,即sampleUrl对应的图像特征
metaData.group标签的分组,如人脸识别中的人物库信息
metaData.itemUrl描述该标签的标准图
metaData.finegrainName描述该片段的细粒度标签
mediaData.entityInfo客户自定义的实体信息(用于自注册的算法)

name = 'sbd'//拆条识别结果

输出参数描述
index拆分片段id
timestamp拆条结束时间
score拆条置信度

name = 'asr'//语音识别结果

输出参数描述
startTime时间段开始时间
endTime时间段结束时间
textasr文本

name = 'ocr'//OCR文本识别结果

输出参数描述
startTime时间段开始时间
endTime时间段结束时间
detailInfo具体的OCR识别结果,是一个列表,表示不同区域的OCR结果
scoreOCR识别的置信度
char_probsOCR预测每个单字符的置信度
textOCR的文本
bbox标签区域位置信息,依次为区域[x1,y1,x2,y2],左上顶点,右下顶点。
timestamp该帧图片在视频中时间戳

name = 'video_ocr'//VideoOCR文本识别结果

输出参数描述
startTime时间段开始时间
endTime时间段结束时间
detailInfo具体的VideoOCR识别结果,是一个列表,表示不同clip区域的VideoOCR结果
scoreVideoOCR识别的置信度
textVideoOCR的文本
bbox标签区域位置信息,依次为区域[x1,y1,x2,y2],左上顶点,右下顶点。
text_type文本类型(0-正常字幕,1-滚动字幕,2-定长标识性字幕(持续时间大于3s以上))
[
  {
    "name": "tag",//结果分类,分为tag、ocr、asr和sbd。分别对应标签结果、OCR结果、语音结果和拆条结果
    "result": [//结果值
      {
        "content": {
          "data": [
            {
              "labelLevel1": "人脸",//标签一级分类
              "labelLevel2": "政治人物",//标签二级分类
              "label": "李命名",//标签值
              "appearanceProbability":0.3547,//出场率
              "isWhite":true, //是否命中白名单
              "labelId": "0010014169",
              "knowledgeInfo":{},
              "detailInfo": [//标签详细信息
                {
                  "score": 0.85797792673110962,//标签置信度,部分标签置信度会不存在,不存在置信度时统一设置为-1. 比如挖掘出来的未知人脸的score分数为-1
                  "trackData": [
                      {
                        "score": 0.91240006685256958,
                        "bbox": [205.0, 95.0, 318.0, 247.0],
                        "attributes": [
                          {
                            "property":"表情",
                            "value":"笑",
                            "score": 0.8765
                          }
                        ],
                        "landmark": [205.0, 95.0, 318.0, 247.0, 205.0, 95.0, 318.0, 247.0, 435.0, 435.0],
                        "timestamp": 35.333000//时间点
                      },
                      {
                        "score": 0.91240006685256958,
                        "bbox": [201.0, 95.0, 314.0, 247.0],
                        "attributes": [
                          {
                            "property":"表情",
                            "value":"笑",
                            "score": 0.8765
                          }
                        ],
                        "landmark": [205.0, 95.0, 318.0, 247.0, 205.0, 95.0, 318.0, 247.0, 435.0, 435.0],
                        "timestamp": 35.466000
                      }
                  ],
                  "startTime": 35.0,//片段开始时间
                  "endTime": 35.465999603271484,//片段结束时间
                  "source": "vision",//标签来源,分为vision:视觉, text:文字,audio:语音
                  "subSource": "facemot",//标签子来源
                  "metaData": {//标签meta信息,不同的标签meta内容不同。
                    "sampleUrl": "",//人像的图片地址
                    "group": "politicians"//人像的图库名称
                  }
                },
                {
                  "score": 0.85797792673110962, 
                  "trackData": [
                      {
                        "score": 0.91240006685256958,
                        "bbox": [205.0, 95.0, 318.0, 247.0],
                        "attributes": [
                          {
                            "property":"表情",
                            "value":"笑",
                            "score": 0.8765
                          }
                        ],
                        "landmark": [205.0, 95.0, 318.0, 247.0, 205.0, 95.0, 318.0, 247.0, 435.0, 435.0],
                        "timestamp": 35.333000
                      },
                      {
                        "score": 0.91240006685256958,
                        "bbox": [201.0, 95.0, 314.0, 247.0],
                        "attributes": [
                          {
                            "property":"表情",
                            "value":"笑",
                            "score": 0.8765
                          }
                        ],
                        "landmark": [205.0, 95.0, 318.0, 247.0, 205.0, 95.0, 318.0, 247.0, 435.0, 435.0],
                        "timestamp": 35.466000
                      }
                  ],
                  "startTime": 35.0,
                  "endTime": 35.465999603271484,
                  "source": "text",
                  "subSource": "ocr_nlp",
                  "metaData": {
                    "sampleUrl": "",
                    "group": ""
                  }
                }
              ]
            },
            {
              "labelLevel1": "视频分类",
              "labelLevel2": "资讯",
              "label": "时政资讯",
              "labelId": "0100252",
              "detailInfo": [
                {
                  "score": 0.85797792673110962,
                  "bboxes": {},
                  "trackData": [],
                  "startTime": 0,
                  "endTime": 35.465999603271484,
                  "source": "vision",
                  "subSource": "cate",
                  "metaData": {
                    "sampleUrl": "",
                    "group": ""
                  }
                },
                {
                  "score": 0.85797792673110962,
                  "bboxes": {},
                  "trackData": [],
                  "startTime": 0,
                  "endTime": 35.465999603271484,
                  "source": "text",
                  "subSource": "ocr_nlp",
                  "metaData": {
                    "sampleUrl": "",
                    "group": ""
                  }
                }
              ]
            }
          ]
        }
      }
    ]
  },
  {
    "name": "sbd",//结果分类,分为tag、ocr、asr和sbd。分别对应标签结果、OCR结果、语音结果和拆条结果
    "result": [//结果值
      {
        "content": {
          "data": [
            {
              "index": 0, 
              "score": 0.9675695300102234, 
              "timestamp": 10.16 # 第一个片段终止时间
            }, 
            {"index": 1, 
              "score": 0.9833308458328247, 
              "timestamp": 12.64 # 第二个片段终止时间
            }
          ]
        }
      }
    ]
  },
  {
    "name": "ocr",//OCR结果
    "result": [
      {
        "content": {
          "data": [
            {
              "detailInfo": [
                {
                  "score": 99,//OCR置信度
                  "bbox": [//OCR文本位置信息
                    434,
                    31,
                    464,
                    43
                  ],
                  "text": "今天"//文本信息
                }
              ],
              "startTime": 0.0,//文本出现的帧的开始时间
              "endTime": 0.0 //文本出现的帧的结束时间
            }
          ]
        }
      }
    ]
  },
  {
    "name": "video_ocr",//video_ocr结果
    "result": [
      {
        "content": {
          "data": [
            {
              "detailInfo": [
                {
                  "score": 0.99,//OCR置信度
                  "bbox": [//OCR文本位置信息
                    434,
                    31,
                    464,
                    43
                  ],
                  "pos": [//OCR文本位置信息
                      {
                        "x": 166,
                        "y": 660
                      },
                      {
                        "x": 822,
                        "y": 660
                      },
                      {
                        "x": 822,
                        "y": 682
                      },
                      {
                        "x": 166,
                        "y": 682
                      }
                    ],
                  "text": "今天",//文本信息
                  "text_type": 2//文本类型(0-正常字幕,1-滚动字幕,2-定长标识性字幕(持续时间大于3s以上))
                }
              ],
              "startTime": 0.0,//文本出现的帧的开始时间
              "endTime": 0.0 //文本出现的帧的结束时间
            }
          ]
        }
      }
    ]
  },
  {
    "name": "asr",//语音结果
    "result": [
      {
        "content": {
          "data": [
            {
              "text": "这个时候",//语音文本
              "startTime": 108.7699966430664, //语音文本开始时间
              "endTime": 110.79000091552734 //语音文本结束时间
            },
            {
              "text": "你不要着急。",//语音文本
              "startTime": 108.7699966430664,//语音文本开始时间
              "endTime": 110.79000091552734 //语音文本结束时间
            }
          ]
        }
      }
    ]
  }
]
阿里云首页 媒体处理 相关技术圈