QuerySmarttagJob - 查询智能标签作业

查询智能标签作业。

接口说明

  • 本接口返回数据中包含视频中的人物、场景、关键词等各种算法智能分析得到的数据。
  • 智能标签功能,目前开通的地域为华北 2(北京)、华东 2(上海)、华东 1(杭州),其他地域暂不支持。

QPS 限制

本接口的单用户 QPS 限制为 100 次/秒。超过限制,API 调用会被限流,这可能会影响您的业务,请合理调用。更多信息,请参见 QPS 限制

调试

您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。

授权信息

下表是API对应的授权信息,可以在RAM权限策略语句的Action元素中使用,用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下:

  • 操作:是指具体的权限点。
  • 访问级别:是指每个操作的访问级别,取值为写入(Write)、读取(Read)或列出(List)。
  • 资源类型:是指操作中支持授权的资源类型。具体说明如下:
    • 对于必选的资源类型,用背景高亮的方式表示。
    • 对于不支持资源级授权的操作,用全部资源表示。
  • 条件关键字:是指云产品自身定义的条件关键字。
  • 关联操作:是指成功执行操作所需要的其他权限。操作者必须同时具备关联操作的权限,操作才能成功。
操作访问级别资源类型条件关键字关联操作
mts:QuerySmarttagJobget
  • 全部资源
    *

请求参数

名称类型必填描述示例值
JobIdstring

需要查询的智能标签作业 ID。可以从提交智能标签作业的返回参数中获取。

39f8e0bc005e4f309379701645f4****
Paramsstring

额外的请求参数,使用 JSON 字符串表示,例如:{"labelResultType":"auto"}。其中,labelResultType为 String 类型,可取值:

  • auto:机器打标结果

  • hmi:人机协同结果

{"labelResultType":"auto"}

返回参数

名称类型描述示例值
object

返回参数。

JobStatusstring

任务状态,可取值:

  • Success:处理成功。

  • Fail:处理失败。

  • Processing:处理中。

  • Submitted:已提交等待处理。

Success
RequestIdstring

请求 ID。

7B117AF5-2A16-412C-B127-FA6175ED1AD0
UserDatastring

通过 MNS 回调时透传回来的信息。消息格式请参见下文回调消息格式定义

example UserData ****
Resultsarray<object>

分析结果对象数组。

Resultobject

分析结果对象数组详细信息。

Typestring

分析结果的类型。

  • 标签 1.0 分析结果类型:

    • TextLabel:文本标签
    • VideoLabel:视频标签
    • ASR:语音识别原始结果(默认不返回)
    • OCR:文字识别原始结果(默认不返回)
    • Process: 算法原始结果 JSON 文件链接(默认不返回),JSON 结构请参见补充说明
  • 标签 2.0 分析结果类型:

    • CPVLabel(人机)
    • Meta:视频标题等信息(默认不返回)
  • 标签 2.0-custom 分析结果类型:

    • CPVLabel(人机)
    • Meta:视频标题等信息(默认不返回)
Meta
Datastring

分析结果的具体数据,以 JSON 字符串表示。不同 Type 的数据结构见下文Result 参数说明

{"title":"example-title-****"}

回调消息格式定义

当智能标签任务执行状态改变时,mps 会发送消息到用户指定的 queue 中(如何指定回调 queue 详见 mps 的更新管道接口)。消息体是一个 JSON 字符串,包含字段如下:

名称类型描述
TypeString固定字符串“smarttag”,表示智能标签任务
JobIdString任务唯一 ID
StateString任务当前状态,与 QuerySmarttagJob 中的 JobStatus 一致
UserDataString用户在 SubmitSmarttagJob 中传入的 UserData

Result 参数说明

VideoLabel 数据结构

名称类型描述
personsJSONArray检测到的人物结果
persons.nameString识别到的人物名称
persons.categoryString人物类型,取值如下:celebrity(名人);politician(政治人物);sensitive(敏感人物);unknown(未知人物);自定义人物库 ID(识别到的人物为自定义人物时返回)
persons.ratiodouble人物出现率,取值:0~1
persons.occurrencesJSONArray人物出场详细信息
persons.occurrences.scoredouble置信度得分
persons.occurrences.fromdouble检测到人物的起始时间,单位(秒)
persons.occurrences.todouble检测到人物的结束时间,单位(秒)
persons.occurrences.positionJSONObject人脸坐标
persons.occurrences.position.leftTopint[]左上角 x,y 坐标
persons.occurrences.position.rightBottomint[]右下角 x,y 坐标
persons.occurrences.timestampdouble人脸坐标所在的时间戳,单位为秒
persons.occurrences.sceneString人物镜头,包括:closeUp(特写);medium-closeUp(近景);medium(中景);medium-long(全景)
tagsJSONArray检测到的物体场景等标签,详见下表举例
tags.mainTagNameString主标签
tags.subTagNameString子标签
tags.ratiodouble出现率,取值:0~1
tags.occurrencesJSONArray出现详细信息
tags.occurrences.scoredouble置信度得分
tags.occurrences.fromdouble起始时间,单位(秒)
tags.occurrences.todouble结束时间,单位(秒)
classificationsJSONArray视频分类信息
classifications.scoredouble置信度得分
classifications.category1String一级分类,比如:生活、动漫、汽车等等
classifications.category2String二级分类,比如生活下面细分为:健康、家居等等

视频 Tags 标签举例说明

mainTagNamesubTagName
节目比如:爸爸去哪儿、欢乐喜剧人等
人物角色比如:医生、护士、教师等
物体比如:钢琴、水杯、桌子、西红柿炒鸡蛋、小汽车、化妆品等
标识比如:CCTV1、CCTV2、优酷、东方卫视等
动作事件比如:跳舞、接吻、拥抱、会晤、唱歌、打电话、骑马、打斗等
地域比如:北京天安门、自由女神像、乐山大佛、中国、美国等
场景比如:卧室、地铁站、梯田、海滩、沙漠等

ImageLabel 数据结构

名称类型描述
personsJSONArray检测到的人物结果
persons.nameString识别到的人物名称
persons.categoryString人物类型,取值如下:celebrity(名人);politician(政治人物);sensitive(敏感人物)
persons.scoredouble人物置信度得分
persons.positionJSONObject人脸坐标
persons.position.leftTopint[]左上角 x,y 坐标
persons.position.rightBottomint[]右下角 x,y 坐标
persons.sceneString人物镜头,包括:closeUp(特写);medium-closeUp(近景);medium(中景);medium-long(全景)
tagsJSONArray检测到的物体场景等标签,详见下表举例
tags.mainTagNameString主标签
tags.subTagNameString子标签
tags.scoredouble置信度得分

图片 tags 标签举例说明

mainTagNamesubTagName
人物角色比如:医生、护士、教师等
地域比如:北京天安门、自由女神像、乐山大佛、中国、美国等
动作事件比如:讲话等
标识比如:CCTV1、CCTV2、优酷、东方卫视等
动作事件比如:跳舞、接吻、拥抱、会晤、唱歌、打电话、骑马、打斗等
物体比如:钢琴、水杯、桌子、西红柿炒鸡蛋、小汽车、化妆品等
场景比如:卧室、地铁站、梯田、海滩、沙漠等

TextLabel 数据结构(来源于 ASR 和 OCR)

名称类型描述
tagsJSONArray文本标签信息,详见下表举例
tags.nameString标签类别
tags.valueString标签值,可能有多个标签值,以半角逗号(,)分割

图片 tags 标签举例说明

namevalue
地域比如:北京天安门、自由女神像、乐山大佛、中国、美国等
组织机构比如:中国生动物保护协会、中央广播电视台等
标识比如:耐克、李宁
关键词比如:中坚力量

CPVLabel 数据结构

  • cates:类目(一级类目、二级类目、三级类目)
  • entities:类目属性(带有知识图谱信息)
  • hotwords:热点词(用户关注的名单)
  • freeTags:自由标签(关键词)
名称类型示例值说明
typeStringhmi结果类型。取值:hmi(人机协同结果)、autp(机器打标结果)
catesJSONArray-分类类目结果
cates.labelLevel1String旅游一级标签
cates.labelLevel2String旅游风光二级标签
cates.labelString""标签名称,算法可能返回空
cates.appearanceProbabilitydouble0.96出现率
cates.detailInfoJSONArray--
cates.detailInfo.scoredouble0.9置信度
cates.detailInfo.startTimedouble0.021开始时间
cates.detailInfo.endTimedouble29.021结束时间
entitiesJSONArray--
entities.labelLevel1String地域一级标签
entities.labelLevel2String地标二级标签
entities.labelString黄果树瀑布标签名称
entities.appearanceProbabilitydouble0.067出现率
entities.knowledgeInfoString{"name": "黄果树瀑布", "nameEn": "Huangguoshu Waterfall", "description": "亚洲四大瀑布之一"}知识图谱信息,全部字段后附表:影视综 IP 图谱、音乐图谱、人物图谱、地标图谱、物体图谱。
entities.detailInfoJSONArray--
entities.detailInfo.scoredouble0.33292606472969055置信度
entities.detailInfo.startTimedouble6.021开始时间
entities.detailInfo.endTimedouble8.021结束时间
entities.detailInfo.trackDataJSONArray-实体标签结构化信息
entities.detailInfo.trackData.scoredouble0.32置信度
entities.detailInfo.trackData.bboxinteger[]23,43,45,67坐标框
entities.detailInfo.trackData.timestampdouble7.9时间戳
hotwordsJSONArray--
hotwords.labelLevel1String关键词一级标签
hotwords.labelLevel1String关键词二级标签
hotwords.labelLevel2String""二级标签
hotwords.labelString中国气象局看点词内容
hotwords.appearanceProbabilitydouble0.96出现率
hotwords.detailInfoJSONArray
hotwords.detailInfo.scoredouble1.0置信度
hotwords.detailInfo.startTimedouble0.021开始时间
hotwords.detailInfo.endTimedouble29.021结束时间
freeTagsJSONArray
freeTags.labelLevel1String关键词一级标签
freeTags.labelLevel2String""二级标签
freeTags.labelString中央气象台看点词内容
freeTags.appearanceProbabilitydouble0.96出现率
freeTags.detailInfoJSONArray
freeTags.detailInfo.scoredouble0.9置信度
freeTags.detailInfo.startTimedouble0.021开始时间
freeTags.detailInfo.endTimedouble29.021结束时间

语音识别 ASR 结果

名称类型描述
detailsJSONArray任务详细结果
details.fromdouble开始时间戳,单位(秒)
details.todouble结束时间戳,单位(秒)
details.contentString识别出的文本内容

文本识别 OCR 结果

名称类型描述
detailsJSONArray任务详细结果
details.timestampdouble时间戳信息,单位(秒)
details.infoJSONArray该时间点识别出的具体信息
details.info.scoredouble置信度得分
details.info.positionJSONObject文字坐标
details.info.position.leftTopint[]左上角 x,y 坐标
details.info.position.rightBottomint[]右下角 x,y 坐标
details.info.contentString识别出的文本内容
details.info.textTypeString文本类型,取值:0(正常字幕)、1(滚动字幕)、2(定长标识性字幕,持续时间 3 秒以上)

Meta 标注结果

说明 如果客户没有使用人机标注,在使用 SubmitSmarttagJob 提交任务时如果指定了 needMetaData,目前 QuerySmarttagJob 返回结果时会返回原始客户输入的标题。
名称类型描述
titleString标题

字幕提取结果 Subtitle

名称类型描述
detailsJSONArray任务详细结果
details.allResultUrlString全部字幕结果 URL,URL 有效期为任务完成后半年内可有效访问
details.chResultUrlString中文结果 URL,URL 有效期为任务完成后半年内可有效访问
details.engResultUrlString英文结果 URL,URL 有效期为任务完成后半年内可有效访问
说明 字幕结果 URL 内容:序号+时间段+字幕内容(每句字幕为一行)

示例

正常返回示例

JSON格式

{
  "JobStatus": "Success",
  "RequestId": "7B117AF5-2A16-412C-B127-FA6175ED1AD0",
  "UserData": "example UserData ****",
  "Results": {
    "Result": [
      {
        "Type": "Meta",
        "Data": "{\"title\":\"example-title-****\"}"
      }
    ]
  }
}

错误码

访问错误中心查看更多错误码。

变更历史

变更时间变更内容概要操作
暂无变更历史

输出信息的解析

输出参数描述
name结果模块名:其中"tag"为标签结果,所有标签按照统一格式输出;"asr"为语音结果;“ocr”为文本识别结果。
result产品级结果列表,目前只包含内容分析产品
content产品级结果结构体
data具体算法结果列表

下面分 name 的值来说明字段: name = 'tag' //融合标签结果

输出参数描述
labelLevel1一级标签分类,如视频分类、节目、人脸、标识、人物角色、地域、场景、动作事件、组织机构、关键词等
labelLevel2二级标签分类,其中人脸的二级标签类分组为:政治人物、敏感人物、名人、未知人脸、自定义,多种类型以','隔开
label细粒度的标签
knowledgeInfo知识图谱信息(为字典)
appearanceProbability标签的出场率,表示标签在视频中时间占比
isWhite表示该标签是否命中了用户定义的白名单
detailInfo该结构存储了标签出现的时间区间、score、区域、来源等详细信息
score是标签的置信度信息,部分标签置信度会不存在,不存在置信度时统一设置为-1. 比如挖掘出来的未知人脸的 score 分数为-1
bboxes标签区域位置信息,(将废弃,不建议使用),依次为区域左顶点 X 坐标、Y 坐标、区域宽度、区域高度,后续逐渐废弃,信息迁移到 trackData 中
trackData在该时间段内等间隔记录在视频时刻上的算法结果,包含 bbox、score、attributes、landmark、timestamp 几个字段记录算法结果
scoretrackData 下的 score,代表当前时刻的算法置信度,其中人脸算法为人脸检测的 score
bboxtrackData 下的 bbox,标签区域位置信息,
格式为[x1,y1,x2,y2],左上顶点,右下顶点。
landmarktrackData 下的 landmark,标签区域关键像素信息
attributestrackData 下的 attributes,有 property、value、score 字段,分别为该时刻的属性类、属性值、属性分数,表示标签在该帧的属性信息,如人脸的表情信息等
timestamptrackData 下的 timestamp,标记当前时刻
source标签来源:'vision'为视觉来源、'audio'为音频来源、'text'为文本来源
subSource为算法模型层次的来源,用户可不用关心
metaData记载了标签的非统一信息,不同类型的标签会有所差别,可通过判断某个字段是否为空来确定该标签是否具备该字段信息,具体子字段如下
metaData.sampleUrl标签的代表图,如人脸识别中预测人物和该图是一致的,也是我们定义标签的标准
metaData.feature标签代表图的特征,如人脸识别中的最佳人脸的特征,即 sampleUrl 对应的图像特征
metaData.group标签的分组,如人脸识别中的人物库信息
metaData.itemUrl描述该标签的标准图
metaData.finegrainName描述该片段的细粒度标签
mediaData.entityInfo客户自定义的实体信息(用于自注册的算法)

name = 'sbd'//拆条识别结果

输出参数描述
index拆分片段 id
timestamp拆条结束时间
score拆条置信度

name = 'asr'//语音识别结果

输出参数描述
startTime时间段开始时间
endTime时间段结束时间
textasr 文本

name = 'ocr'//OCR 文本识别结果

输出参数描述
startTime时间段开始时间
endTime时间段结束时间
detailInfo具体的 OCR 识别结果,是一个列表,表示不同区域的 OCR 结果
scoreOCR 识别的置信度
char_probsOCR 预测每个单字符的置信度
textOCR 的文本
bbox标签区域位置信息,依次为区域[x1,y1,x2,y2],左上顶点,右下顶点。
timestamp该帧图片在视频中时间戳

name = 'video_ocr'//VideoOCR 文本识别结果

输出参数描述
startTime时间段开始时间
endTime时间段结束时间
detailInfo具体的 VideoOCR 识别结果,是一个列表,表示不同 clip 区域的 VideoOCR 结果
scoreVideoOCR 识别的置信度
textVideoOCR 的文本
bbox标签区域位置信息,依次为区域[x1,y1,x2,y2],左上顶点,右下顶点。
text_type文本类型(0-正常字幕,1-滚动字幕,2-定长标识性字幕(持续时间大于 3s 以上))
[
  {
    "name": "tag",//结果分类,分为 tag、ocr、asr 和 sbd。分别对应标签结果、OCR 结果、语音结果和拆条结果
    "result": [//结果值
      {
        "content": {
          "data": [
            {
              "labelLevel1": "人脸",//标签一级分类
              "labelLevel2": "政治人物",//标签二级分类
              "label": "李命名",//标签值
              "appearanceProbability":0.3547,//出场率
              "isWhite":true, //是否命中白名单
              "labelId": "0010014169",
              "knowledgeInfo":{},
              "detailInfo": [//标签详细信息
                {
                  "score": 0.85797792673110962,//标签置信度,部分标签置信度会不存在,不存在置信度时统一设置为-1. 比如挖掘出来的未知人脸的 score 分数为-1
                  "trackData": [
                      {
                        "score": 0.91240006685256958,
                        "bbox": [205.0, 95.0, 318.0, 247.0],
                        "attributes": [
                          {
                            "property":"表情",
                            "value":"笑",
                            "score": 0.8765
                          }
                        ],
                        "landmark": [205.0, 95.0, 318.0, 247.0, 205.0, 95.0, 318.0, 247.0, 435.0, 435.0],
                        "timestamp": 35.333000//时间点
                      },
                      {
                        "score": 0.91240006685256958,
                        "bbox": [201.0, 95.0, 314.0, 247.0],
                        "attributes": [
                          {
                            "property":"表情",
                            "value":"笑",
                            "score": 0.8765
                          }
                        ],
                        "landmark": [205.0, 95.0, 318.0, 247.0, 205.0, 95.0, 318.0, 247.0, 435.0, 435.0],
                        "timestamp": 35.466000
                      }
                  ],
                  "startTime": 35.0,//片段开始时间
                  "endTime": 35.465999603271484,//片段结束时间
                  "source": "vision",//标签来源,分为 vision:视觉, text:文字,audio:语音
                  "subSource": "facemot",//标签子来源
                  "metaData": {//标签 meta 信息,不同的标签 meta 内容不同。
                    "sampleUrl": "",//人像的图片地址
                    "group": "politicians"//人像的图库名称
                  }
                },
                {
                  "score": 0.85797792673110962, 
                  "trackData": [
                      {
                        "score": 0.91240006685256958,
                        "bbox": [205.0, 95.0, 318.0, 247.0],
                        "attributes": [
                          {
                            "property":"表情",
                            "value":"笑",
                            "score": 0.8765
                          }
                        ],
                        "landmark": [205.0, 95.0, 318.0, 247.0, 205.0, 95.0, 318.0, 247.0, 435.0, 435.0],
                        "timestamp": 35.333000
                      },
                      {
                        "score": 0.91240006685256958,
                        "bbox": [201.0, 95.0, 314.0, 247.0],
                        "attributes": [
                          {
                            "property":"表情",
                            "value":"笑",
                            "score": 0.8765
                          }
                        ],
                        "landmark": [205.0, 95.0, 318.0, 247.0, 205.0, 95.0, 318.0, 247.0, 435.0, 435.0],
                        "timestamp": 35.466000
                      }
                  ],
                  "startTime": 35.0,
                  "endTime": 35.465999603271484,
                  "source": "text",
                  "subSource": "ocr_nlp",
                  "metaData": {
                    "sampleUrl": "",
                    "group": ""
                  }
                }
              ]
            },
            {
              "labelLevel1": "视频分类",
              "labelLevel2": "资讯",
              "label": "时政资讯",
              "labelId": "0100252",
              "detailInfo": [
                {
                  "score": 0.85797792673110962,
                  "bboxes": {},
                  "trackData": [],
                  "startTime": 0,
                  "endTime": 35.465999603271484,
                  "source": "vision",
                  "subSource": "cate",
                  "metaData": {
                    "sampleUrl": "",
                    "group": ""
                  }
                },
                {
                  "score": 0.85797792673110962,
                  "bboxes": {},
                  "trackData": [],
                  "startTime": 0,
                  "endTime": 35.465999603271484,
                  "source": "text",
                  "subSource": "ocr_nlp",
                  "metaData": {
                    "sampleUrl": "",
                    "group": ""
                  }
                }
              ]
            }
          ]
        }
      }
    ]
  },
  {
    "name": "sbd",//结果分类,分为 tag、ocr、asr 和 sbd。分别对应标签结果、OCR 结果、语音结果和拆条结果
    "result": [//结果值
      {
        "content": {
          "data": [
            {
              "index": 0, 
              "score": 0.9675695300102234, 
              "timestamp": 10.16 # 第一个片段终止时间
            }, 
            {"index": 1, 
              "score": 0.9833308458328247, 
              "timestamp": 12.64 # 第二个片段终止时间
            }
          ]
        }
      }
    ]
  },
  {
    "name": "ocr",//OCR 结果
    "result": [
      {
        "content": {
          "data": [
            {
              "detailInfo": [
                {
                  "score": 99,//OCR 置信度
                  "bbox": [//OCR 文本位置信息
                    434,
                    31,
                    464,
                    43
                  ],
                  "text": "今天"//文本信息
                }
              ],
              "startTime": 0.0,//文本出现的帧的开始时间
              "endTime": 0.0 //文本出现的帧的结束时间
            }
          ]
        }
      }
    ]
  },
  {
    "name": "video_ocr",//video_ocr 结果
    "result": [
      {
        "content": {
          "data": [
            {
              "detailInfo": [
                {
                  "score": 0.99,//OCR 置信度
                  "bbox": [//OCR 文本位置信息
                    434,
                    31,
                    464,
                    43
                  ],
                  "pos": [//OCR 文本位置信息
                      {
                        "x": 166,
                        "y": 660
                      },
                      {
                        "x": 822,
                        "y": 660
                      },
                      {
                        "x": 822,
                        "y": 682
                      },
                      {
                        "x": 166,
                        "y": 682
                      }
                    ],
                  "text": "今天",//文本信息
                  "text_type": 2//文本类型(0-正常字幕,1-滚动字幕,2-定长标识性字幕(持续时间大于 3s 以上))
                }
              ],
              "startTime": 0.0,//文本出现的帧的开始时间
              "endTime": 0.0 //文本出现的帧的结束时间
            }
          ]
        }
      }
    ]
  },
  {
    "name": "asr",//语音结果
    "result": [
      {
        "content": {
          "data": [
            {
              "text": "这个时候",//语音文本
              "startTime": 108.7699966430664, //语音文本开始时间
              "endTime": 110.79000091552734 //语音文本结束时间
            },
            {
              "text": "你不要着急。",//语音文本
              "startTime": 108.7699966430664,//语音文本开始时间
              "endTime": 110.79000091552734 //语音文本结束时间
            }
          ]
        }
      }
    ]
  }
]