通过QuerySmarttagJob查询智能标签任务状态与结果参数-智能媒体服务-阿里云-智能媒体服务(IMS)-阿里云帮助中心

查询智能标签任务。

调试

您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。

调试

授权信息

下表是API对应的授权信息，可以在RAM权限策略语句的Action元素中使用，用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下：

操作：是指具体的权限点。
访问级别：是指每个操作的访问级别，取值为写入（Write）、读取（Read）或列出（List）。
资源类型：是指操作中支持授权的资源类型。具体说明如下：
- 对于必选的资源类型，用前面加 * 表示。
- 对于不支持资源级授权的操作，用全部资源表示。
条件关键字：是指云产品自身定义的条件关键字。
关联操作：是指成功执行操作所需要的其他权限。操作者必须同时具备关联操作的权限，操作才能成功。

操作

访问级别

资源类型

条件关键字

关联操作

ice:QuerySmarttagJob

get

*全部资源

*

无

请求参数

名称	类型	必填	描述	示例值
JobId	string	是	需要查询的智能标签作业 ID。可以从提交智能标签作业的返回参数中获取。	88c6ca184c0e47098a5b665e2****
Params	string	否	额外的请求参数，使用 JSON 字符串表示，例如：{"labelResultType":"auto"}。其中，labelResultType 为 String 类型，可取值： auto：机器打标结果 hmi：人机协同结果	{"labelResultType":"auto"}

返回参数

名称	类型	描述	示例值
	object
JobStatus	string	任务状态，可取值： Success：处理成功。 Fail：处理失败。 Processing：处理中。 Submitted：已提交等待处理。	Success
RequestId	string	请求 ID。	****11-DB8D-4A9A-875B-275798****
UserData	string	通过 MNS 回调时透传回来的信息。消息格式请参见下文回调消息格式定义。	{"userId":"123432412831"}
Results	object
Result	array<object>	分析结果对象数组。
	object
Type	string	分析结果的类型。 - 标签 1.0 分析结果类型： TextLabel：文本标签 VideoLabel：视频标签 ASR：语音识别原始结果（默认不返回） OCR：文字识别原始结果（默认不返回） NLP：NLP 处理结果（默认不返回） - 标签 2.0 分析结果类型： CPVLabel Meta：视频标题等信息（默认不返回） - 标签 2.0-custom 分析结果类型： CPVLabel Meta：视频标题等信息（默认不返回）	Meta
Data	string	分析结果的具体数据，以 JSON 字符串表示。不同 Type 的数据结构见下文 Result 参数说明。	{"title":"example-title-****"}
Usages	object
Usage	array<object>
	object
Type	string
Quota	integer

回调消息格式定义 当智能标签任务执行状态改变时，mps 会发送消息到用户指定的 queue 中（如何指定回调 queue 详见 mps 的更新管道接口）。消息体是一个 JSON 字符串，包含字段如下：

名称	类型	描述
Type	String	固定字符串“smarttag”，表示智能标签任务
JobId	String	任务唯一 ID
State	String	任务当前状态，与 QuerySmarttagJob 中的 JobStatus 一致
State	String	任务当前状态，与 QuerySmarttagJob 中的 JobStatus 一致
UserData	String	用户在 SubmitSmarttagJob 中传入的 UserData
UserData	String	用户在 SubmitSmarttagJob 中传入的 UserData

Result 参数说明

VideoLabel 数据结构

名称	类型	描述
persons	JSONArray	检测到的人物结果
persons.name	String	识别到的人物名称
persons.category	String	人物类型，取值如下：`celebrity`（名人）；`politician`（政治人物）；`sensitive`（敏感人物）；`unknown`（未知人物）；自定义人物库 ID（识别到的人物为自定义人物时返回）
persons.ratio	double	人物出现率，取值：0~1
persons.occurrences	JSONArray	人物出场详细信息
persons.occurrences.score	double	置信度得分
persons.occurrences.from	double	检测到人物的起始时间，单位（秒）
persons.occurrences.to	double	检测到人物的结束时间，单位（秒）
persons.occurrences.position	JSONObject	人脸坐标
persons.occurrences.position.leftTop	int[]	左上角 x，y 坐标
persons.occurrences.position.rightBottom	int[]	右下角 x，y 坐标
persons.occurrences.timestamp	double	人脸坐标所在的时间戳，单位为秒
persons.occurrences.scene	String	人物镜头，包括：`closeUp`（特写）；`medium-closeUp`（近景）；`medium`（中景）；`medium-long`（全景）
tags	JSONArray	检测到的物体场景等标签，详见下表举例
tags.mainTagName	String	主标签
tags.subTagName	String	子标签
tags.ratio	double	出现率，取值：0~1
tags.occurrences	JSONArray	出现详细信息
tags.occurrences.score	double	置信度得分
tags.occurrences.from	double	起始时间，单位（秒）
tags.occurrences.to	double	结束时间，单位（秒）
classifications	JSONArray	视频分类信息
classifications.score	double	置信度得分
classifications.category1	String	一级分类，比如：生活、动漫、汽车等等
classifications.category2	String	二级分类，比如生活下面细分为：健康、家居等等

视频 Tags 标签举例说明

mainTagName	subTagName
节目	比如：爸爸去哪儿、欢乐喜剧人等
人物角色	比如：医生、护士、教师等
物体	比如：钢琴、水杯、桌子、西红柿炒鸡蛋、小汽车、化妆品等
标识	比如：CCTV1、CCTV2、优酷、东方卫视等
动作事件	比如：跳舞、接吻、拥抱、会晤、唱歌、打电话、骑马、打斗等
地域	比如：北京天安门、自由女神像、乐山大佛、中国、美国等
场景	比如：卧室、地铁站、梯田、海滩、沙漠等

ImageLabel 数据结构

名称	类型	描述
persons	JSONArray	检测到的人物结果
persons.name	String	识别到的人物名称
persons.category	String	人物类型，取值如下：celebrity（名人）；politician（政治人物）；sensitive（敏感人物）
persons.score	double	人物置信度得分
persons.position	JSONObject	人脸坐标
persons.position.leftTop	int[]	左上角 x，y 坐标
persons.position.rightBottom	int[]	右下角 x，y 坐标
persons.scene	String	人物镜头，包括：closeUp（特写）；medium-closeUp（近景）；medium（中景）；medium-long（全景）
tags	JSONArray	检测到的物体场景等标签，详见下表举例
tags.mainTagName	String	主标签
tags.subTagName	String	子标签
tags.score	double	置信度得分

图片 tags 标签举例说明

mainTagName	subTagName
人物角色	比如：医生、护士、教师等
地域	比如：北京天安门、自由女神像、乐山大佛、中国、美国等
动作事件	比如：讲话等
标识	比如：CCTV1、CCTV2、优酷、东方卫视等
动作事件	比如：跳舞、接吻、拥抱、会晤、唱歌、打电话、骑马、打斗等
物体	比如：钢琴、水杯、桌子、西红柿炒鸡蛋、小汽车、化妆品等
场景	比如：卧室、地铁站、梯田、海滩、沙漠等

TextLabel 数据结构（来源于 ASR 和 OCR）

名称	类型	描述
tags	JSONArray	文本标签信息，详见下表举例
tags.name	String	标签类别
tags.value	String	标签值，可能有多个标签值，以半角逗号（,）分割

图片 tags 标签举例说明

name	value
地域	比如：北京天安门、自由女神像、乐山大佛、中国、美国等
组织机构	比如：中国生动物保护协会、中央广播电视台等
标识	比如：耐克、李宁
关键词	比如：中坚力量

CPVLabel 数据结构

cates：类目（一级类目、二级类目、三级类目）
entities：类目属性（带有知识图谱信息）
hotwords：热点词（用户关注的名单）
freeTags：自由标签（关键词）

名称	类型	示例值	说明
type	String	hmi	结果类型。取值：hmi（人机协同结果）、autp（机器打标结果）
cates	JSONArray	-	分类类目结果
cates.labelLevel1	String	旅游	一级标签
cates.labelLevel2	String	旅游风光	二级标签
cates.label	String	""	标签名称，算法可能返回空
cates.appearanceProbability	double	0.96	出现率
cates.detailInfo	JSONArray	-	-
cates.detailInfo.score	double	0.9	置信度
cates.detailInfo.startTime	double	0.021	开始时间
cates.detailInfo.endTime	double	29.021	结束时间
entities	JSONArray	-	-
entities.labelLevel1	String	地域	一级标签
entities.labelLevel2	String	地标	二级标签
entities.label	String	黄果树瀑布	标签名称
entities.appearanceProbability	double	0.067	出现率
entities.knowledgeInfo	String	{"name": "黄果树瀑布", "nameEn": "Huangguoshu Waterfall", "description": "亚洲四大瀑布之一"}	知识图谱信息，全部字段后附表：影视综 IP 图谱、音乐图谱、人物图谱、地标图谱、物体图谱。
entities.detailInfo	JSONArray	-	-
entities.detailInfo.score	double	0.33292606472969055	置信度
entities.detailInfo.startTime	double	6.021	开始时间
entities.detailInfo.endTime	double	8.021	结束时间
entities.detailInfo.trackData	JSONArray	-	实体标签结构化信息
entities.detailInfo.trackData.score	double	0.32	置信度
entities.detailInfo.trackData.bbox	integer[]	23，43，45，67	坐标框
entities.detailInfo.trackData.timestamp	double	7.9	时间戳
hotwords	JSONArray	-	-
hotwords.labelLevel1	String	关键词	一级标签
hotwords.labelLevel1	String	关键词	二级标签
hotwords.labelLevel2	String	""	二级标签
hotwords.label	String	中国气象局	看点词内容
hotwords.appearanceProbability	double	0.96	出现率
hotwords.detailInfo	JSONArray
hotwords.detailInfo.score	double	1.0	置信度
hotwords.detailInfo.startTime	double	0.021	开始时间
hotwords.detailInfo.endTime	double	29.021	结束时间
freeTags	JSONArray
freeTags.labelLevel1	String	关键词	一级标签
freeTags.labelLevel2	String	""	二级标签
freeTags.label	String	中央气象台	看点词内容
freeTags.appearanceProbability	double	0.96	出现率
freeTags.detailInfo	JSONArray
freeTags.detailInfo.score	double	0.9	置信度
freeTags.detailInfo.startTime	double	0.021	开始时间
freeTags.detailInfo.endTime	double	29.021	结束时间

语音识别 ASR 结果

名称	类型	描述
details	JSONArray	任务详细结果
details.from	double	开始时间戳，单位（秒）
details.to	double	结束时间戳，单位（秒）
details.content	String	识别出的文本内容

文本识别 OCR 结果

名称	类型	描述
details	JSONArray	任务详细结果
details.timestamp	double	时间戳信息，单位（秒）
details.info	JSONArray	该时间点识别出的具体信息
details.info.score	double	置信度得分
details.info.position	JSONObject	文字坐标
details.info.position.leftTop	int[]	左上角 x，y 坐标
details.info.position.rightBottom	int[]	右下角 x，y 坐标
details.info.content	String	识别出的文本内容

Meta 标注结果

说明

如果客户没有使用人机标注，在使用 SubmitSmarttagJob 提交任务时如果指定了 needMetaData，目前 QuerySmarttagJob 返回结果时会返回原始客户输入的标题。

名称	类型	描述
title	String	标题

字幕提取结果 Subtitle

名称	类型	描述
details	JSONArray	任务详细结果
details.allResultUrl	String	全部字幕结果 URL，URL 有效期为任务完成后半年内可有效访问
details.chResultUrl	String	中文结果 URL，URL 有效期为任务完成后半年内可有效访问
details.engResultUrl	String	英文结果 URL，URL 有效期为任务完成后半年内可有效访问

说明

字幕结果 URL 内容：序号+时间段+字幕内容（每句字幕为一行）。

NLP 处理结果

参数名	类型	说明
transcription	object	语音转写结果
autoChapters	object	章节速览结果
summarization	object	大模型摘要结果
meetingAssistance	object	智能纪要结果
translation	object	文本翻译结果

transcription（语音转录）

参数名	类型	说明
transcription	object	语音转写结果对象。
transcription.paragraphs	list[]	语音转写结构以段落形式组织的集合。
transcription.paragraphs[i].paragraphId	string	段落级别 id。
transcription.paragraphs[i].speakerId	string	发言人 id。
transcription.paragraphs[i].words	list[]	该段落包含的 word 信息。
transcription.paragraphs[i].words[i].id	int	word 序号，通常无须关注。
transcription.paragraphs[i].words[i].sentenceId	int	句子 id，同属于一个 SentenceId 的 word 信息可以组装成一句话。
transcription.paragraphs[i].words[i].start	long	该 word 相对于音频起始时间的开始时间，相对时间戳，单位毫秒。
transcription.paragraphs[i].words[i].end	long	该 word 相对于音频起始时间的结束时间，相对时间戳，单位毫秒。
transcription.paragraphs[i].words[i].text	string	word 文本。

summarization（全文摘要、发言人总结、提问摘要）

参数名	类型	说明
summarization	object	摘要结果对象，可能包含 0 个或多个不同摘要类型的结果。
summarization.paragraphSummary	string	全文摘要结果。
summarization.conversationalSummary	list[]	发言总结摘要结果列表。
summarization.conversationalSummary[i].speakerId	string	发言人 id。
summarization.conversationalSummary[i].speakerName	string	发言人名字。
summarization.conversationalSummary[i].summary	string	该发言人对应的总结。
summarization.questionsAnsweringSummary	list[]	问答摘要结果列表。
summarization.questionsAnsweringSummary[i].question	string	问题
summarization.questionsAnsweringSummary[i].sentenceIdsOfQuestion	list[]	提炼出该问题对应的原语音转写的 SentenceId 列表。
summarization.questionsAnsweringSummary[i].answer	string	问题对应的答案。
summarization.questionsAnsweringSummary[i].sentenceIdsOfAnswer	list[]	总结出该答案对应的原语音转写的 SentenceId 列表。
summarization.mindMapSummary	list[object]	思维导图摘要结果列表，可能包含各个主题的摘要、主题间的关系等。
summarization.mindMapSummary[i].title	string	主题的标题。
summarization.mindMapSummary[i].topic	list[object]	包含每个主题及其子主题的数组
summarization.mindMapSummary[i].topic[i].title	string	主题的标题。
summarization.mindMapSummary[i].topic[i].topic	list[object]	主题的子主题数组，可以是空数组。

translation（全文翻译）

参数名	类型	说明
translation	object	翻译结果对象。
translation.paragraphs	list[]	翻译结果以段落形式组织的集合，和语音识别结果报文对应。
translation.paragraphs.paragraphId	string	段落分段 id 标识，和语音识别结果中的 ParagraphId 对应。
translation.paragraphs.sentences	list[]	翻译文本集合。
translation.paragraphs.sentences[i].sentenctId	long	句子 id。
translation.paragraphs.sentences[i].start	long	该段相对于音频起始时间的开始时间，相对时间戳，单位毫秒。
translation.paragraphs.sentences[i].end	long	该段相对于音频起始时间的结束时间，相对时间戳，单位毫秒。
translation.paragraphs.sentences[i].text	string	翻译文本，和语音识别结果报文对应。

autoChapters（章节识别）

参数名	类型	说明
autoChapters	list[]	章节速览集合，含有 0 个、1 个或多个章节速览信息。
autoChapters[i].id	int	该章节序号。
autoChapters[i].start	long	该章节相对于音频起始时间的开始时间，相对时间戳，单位毫秒。
autoChapters[i].end	long	该章节相对于音频起始时间的结束时间，相对时间戳，单位毫秒。
autoChapters[i].headline	string	该章节的一句话标题。
autoChapters[i].summary	string	章节总结。

meetingAssistance（智能纪要提取，包含关键词、关键句、待办事项提取）

参数名	类型	说明
meetingAssistance	object	智能纪要结果对象，可能包含 0 个或多个不同类型的结果。
meetingAssistance.keywords	list[]	关键词提取结果。
meetingAssistance.keySentences	list[]	关键句提取结果，也称为重点内容。
meetingAssistance.keySentences[i].id	long	关键句序号。
meetingAssistance.keySentences[i].sentenceId	long	该关键句在原 ASR 转写中对应的句子 Id。
meetingAssistance.keySentences[i].start	long	相对于音频起始时间的开始时间，相对时间戳，单位毫秒。
meetingAssistance.keySentences[i].end	long	相对于音频起始时间的结束时间，相对时间戳，单位毫秒。
meetingAssistance.keySentences[i].text	string	关键句信息。
meetingAssistance.actions	list[]	待办内容、待办摘要的集合。
meetingAssistance.actions[i].id	long	待办序号。
meetingAssistance.actions[i].sentenceId	long	该关键句在原 ASR 转写中对应的句子 Id。
meetingAssistance.actions[i].start	long	相对于音频起始时间的开始时间，相对时间戳，单位毫秒。
meetingAssistance.actions[i].end	long	相对于音频起始时间的结束时间，相对时间戳，单位毫秒。
meetingAssistance.actions[i].text	string	待办内容。
meetingAssistance.classifications	object	场景分类，目前只有 3 中场景分类。
meetingAssistance.classifications.interview	float	面试场景置信度得分。
meetingAssistance.classifications.lecture	float	演讲场景置信度得分。
meetingAssistance.classifications.meeting	float	会议场景置信度得分。

示例

正常返回示例

JSON格式

{
  "JobStatus": "Success",
  "RequestId": "******11-DB8D-4A9A-875B-275798******",
  "UserData": "{\"userId\":\"123432412831\"}",
  "Results": {
    "Result": [
      {
        "Type": "Meta",
        "Data": "{\"title\":\"example-title-****\"}\t\n"
      }
    ]
  },
  "Usages": {
    "Usage": [
      {
        "Type": "",
        "Quota": 0
      }
    ]
  }
}

错误码

访问错误中心查看更多错误码。

变更历史

更多信息，参考变更详情。