智能标签,是通过分析视频中视觉、文字、语音、行为等信息,结合多模态信息融合及对齐技术,实现高准确率内容识别,自动输出视频的多维度内容标签,将非结构化信息转化为结构化信息,适用于媒资检索、个性化推荐、智能广告投放等场景。

产品功能

  • 多维度信息识别:从视觉、文字、语音、运行行为等多个维度对视频信息进行分析,识别视频中的人物、物体场景、地标、文字、语音等内容。
    • 视觉识别:分析视频的视觉图像信息,识别人物、物体、场景等图像内容。
    • 文字识别:识别视频图像中的文字,提取图像文本内容。
    • 语音识别:分析视频中的语音信息,提取语音文本内容。
    • 运动f行为识别:分析视频动态信息,识别运动、动作、行为事件等内容。
  • 多模态融合理解:采用多模态融合对齐、跨模态映射等技术,对媒体内容进行多模态融合识别,高效、精准理解视频内容。
    • 多模态对齐:识别多模态间不同元素的联系和对齐关系,实现视频文字、语音、视觉等不同模态信息的对齐理解。
    • 多模态融合:整合不同模态间的模型和特征,提高理解能力和效率,实现语音文字文本纠错能力,提升识别准确率。
    • 多模态联合表征:将多模态信息进行整合及联合表征,实现视频内容的一体化识别。
  • 丰富灵活的标签:结合成熟完善的媒体标签体系,根据多模态融合理解结果对媒体文件进行智能打标,输出多维度视频标签信息,同时提供灵活的标签自定义功能。
    • 智能标签提取:标签处理集成自定义过滤、标签去重、标签合并、权重排序等算法,提供高效、准确、实用的智能打标能力。
    • 多维度标签输出:结合融合理解结果及标签体系,输出多维度视频标签,包括视频分类标签、人物标签、物体场景标签、文本标签等。具体标签类别包括:人脸、地域、标识、组织机构、表情、人物角色、动作事件、场景、物体、视频分类等大类标签,及上万个细分标签。
    • 支持自定义标签:支持地标词库注册、人脸自注册、未知人脸聚类、标签黑名单、标签热词等标签自定义功能,满足不同场景下的使用需求。

应用场景

准确高效的媒体资源检索。通过准确丰富的视频标签体系,对视频、图像、文本等媒体文件进行内容编目,支持通过关键词或标签文本,对素材库中的内容进行快速检索,提升视频资源检索效率与准确性。

  • 个性化推荐:精准、个性化的内容推荐。根据媒体文件内容标签,结合用户信息、行为数据及用户画像分析,进行内容精准匹配,实现视频个性化推荐,解决推荐冷启动问题,提升推荐准确率。
  • 智能广告投放:智能化、场景化的广告投放。根据媒体文件多模态内容分析及视频标签结果,自动识别广告位,与广告资源库内容进行匹配,实现广告智能投放,精准触达受众人群,提升广告转化率。

前提条件

  1. 确保您已注册阿里云账号,完成实名认证,并开通了 媒体处理服务
  2. 准备好访问媒体处理服务使用的Access Key。可以在阿里云 Access Key管理 创建主账号Access Key;也可以在RAM访问控制台创建子账号,并授予媒体处理权限(如AliyunMTSFullAccess)后进行相应操作,具体请参见子账号使用控制台说明
  3. 如需接收任务状态回调通知,需要在管道中配置消息队列MNS,可在媒体处理控制台-全局设置-管道进行配置。具体请参见 作业和管道
  4. 调用智能标签服务的音视频文件,需要上传存储到 媒体库,具体请参见上传视频文件 进行操作。

使用方式

  1. 提交智能标签作业

    对于已成功上传到媒体库的视频,可以通过API/SDK方式提交智能标签作业,具体请参见提交智能标签作业

  2. 通过模板配置分析类型

    智能标签作业可以通过模板设置分析类型,在提交作业时指定模板ID。模板的使用方式请参见添加模板查询模板更新模板删除模板

  3. 自定义人脸库设置

    智能标签作业支持配置分析使用的公共人脸库或自定义人脸库范围,在提交作业时指定人脸库参数。人脸库的使用方式请参见注册⾃定义⼈脸注销⾃定义⼈脸添加⾃定义⼈物库或⼈物标签列出⼈物库所有⼈物和⼈脸信息

  4. 接收回调信息

    智能标签作业完成后,如果配置了管道MNS消息队列事件通知,会向消息服务指定的队列或主题发送消息,具体请参见接收消息通知

  5. 查询作业结果

    通过API/SDK方式查询智能标签作业的状态结果,按照智能标签任务ID进行查询,具体请参见查询智能标签任务