相对于通过标题或元数据匹配和过滤的传统媒资搜索,智能媒资检索能够利用AI算法对音视频内容进行智能分析,从而可以从视觉语义、人脸相似度等维度进行更有力的检索。
功能说明
智能媒资检索,简称智能检索,又称为多模检索。通过AI算法对媒资内容的分析,无需人工对音视频内容打标,即可直接搜索音视频中出现的内容。
阿里云智能媒体服务智能媒资检索功能使用或问题咨询等,请搜索钉钉群(30415005038)加入智能媒体服务多模检索客户答疑群联系我们。
阿里云智能媒体服务的智能检索能力如下:
视频跨模态搜索,支持从视觉、音频、文本多个模态搜索
支持的媒资形式:视频、音频、图片
支持的搜索形式:关键词搜索、自然语言搜索、图片搜索
可支持高达数十万小时视频,搜索结果秒级响应
模态 | 特征 | 能力说明 |
图像 | 人脸 | 支持超过50万名人、政治人物、敏感人物的识别 支持用人脸图片搜索人物 |
Logo | 支持识别500多个央视及各卫视电视台台标; 支持识别200多个主流中英文车标; 支持识别常见交通标识; 支持识别20多万个品牌标识; | |
字幕 | 支持识别中英文 支持动态字幕 | |
画面语义 | 基于多模态表征大模型的视觉语义提取与搜索 | |
画面相似度 | 基于图像指纹特征查找相似的图片或视频 | |
音频 | 语音 | 支持从ASR的结果中搜索 |
文本 | 标题、描述 | 支持从标题和描述中搜索 |
智能检索目前有以下几种搜索能力,对应的使用场景、成本和费用均有区别。
搜索能力 | Query形式 | 原理 | 使用场景 | 费用 |
标签检索 | 关键词 | 使用AI算法自动对媒资内容提取标签、关键词等文本信息,然后用于搜索。可搜索的内容包括媒资中出现的人名、字幕等等。 | 视频网站内容检索 视频素材检索 | 按存储的媒资个数和搜索次数计费 |
大模型搜索 | 自然语言 | 使用AIGC大模型自动对媒资内容进行向量化语义分析,找到最接近Query语句语义的内容。 | 视频网站内容检索 个人网盘查找 视频素材检索 | 按存储的媒资时长和搜索次数计费 |
相似人脸搜索 | 人脸图片 | 自动提取媒资中出现的所有人脸特征,比对和查找与给定人脸图片相似的人脸,返回对应的媒资,以及出现的片段。 | 个人网盘查找 人脸翻库 人物搜寻 | 按存储的人脸特征数量和搜索次数计费 |
DNA搜索 | 图片、视频 | 提取图片或视频的指纹特征(DNA),比对和查找类似的图片或视频 | UGC视频查重 剧照搜剧 | 按DNA提取的视频时长计费 |
概念介绍
注:DNA搜索请直接参阅【媒体DNA的使用】章节
要使用智能检索,您需要了解以下概念:
概念 | 解释 | 备注 |
媒资 | 具体的媒体记录 | 当前只支持两种类型:音视频、图片。 |
媒资库 | 存储媒资的数据库 | 当前IMS每个客户默认有且只有1个媒资库,通过控制台上传的视频都在此媒资库中。 |
搜索库 | 专用于搜索的媒资库 |
|
搜索索引 | 搜索库的搜索能力 | 用于管理和组织搜索库中的媒资数据。开启相关索引,才具备相关的查询能力:
|
用户使用逻辑如下图所示:
基于控制台的使用流程
准备工作:开启媒资智能分析
登录智能媒体服务控制台,从左侧导航栏进入智能检索页面。
点击右上角的智能检索配置按钮,打开配置页面:
如果您想使用标签检索,请开启媒资自动分析
如果您想使用大模型检索,请开启大模型自动分析
上传媒资
登录智能媒体服务控制台,从左侧导航栏进入媒资库-音/视频页面。
点击上传音/视频按钮,上传媒资。具体的上传操作说明,详见控制台上传。
上传完成后,媒资会进行自动分析。分析完成后即可进行搜索。如果想确认自动分析是否完成,可点击媒资列表中的管理标签,进入详情页面,查看媒资的内容搜索入库状态。
搜索媒资
登录智能媒体服务控制台,从左侧导航栏进入智能检索页面。
切换下拉框,选择标签检索或是大模型检索:
如果是标签检索,建议query内容为词语或词组,如人名、地名、关键词等
如果是大模型检索,建议query内容为自然语言,例如“海边日出”、“大街上车来车往”
点击结构表头中的媒体类型筛选图标,可选择检索音视频媒资还是图片媒资。
基于自建搜索库的使用流程
在控制台上使用,只能搜索智能媒体服务的默认媒资库。如果您的媒资库不在智能媒体服务中,又想使用智能检索,可以通过OpenAPI自建搜索库解决。
整体的使用流程:创建搜索库 - 创建搜索索引 - 插入媒资到搜索库 - 搜索
创建索引后仅针对后续插入搜索库的媒资生效,当前尚不支持对存量媒资生效。
插入的媒资是否建立索引成功,可通过QueryMediaIndexJob - 查询媒资索引任务接口查询。
只有建立索引成功的媒资才能被检索到。
下面是具体的使用方式。
标签检索
创建一个指定名字的搜索库,接口说明详见CreateSearchLib - 创建搜索库。
在这个搜索库中创建索引,接口详见CreateSearchIndex - 创建搜索索引。对于标签检索,接口中的IndexType字段需填写
aiLabel
。使用SearchMediaByAILabel - 智能标签文本搜索接口搜索媒资,分为两个阶段:
第一次调用,选择粗搜模式,结果返回匹配的媒资列表
第二次调用,选择精搜模式,结果返回具体某个媒资中,匹配的片段列表
大模型搜索
创建一个指定名字的搜索库,接口说明详见CreateSearchLib - 创建搜索库。
在这个搜索库中创建索引,接口详见CreateSearchIndex - 创建搜索索引。对于大模型搜索,接口中的IndexType字段需填写
mm
。使用SearchMediaByMultimodal - 大模型搜索接口搜索媒资,结果返回匹配的媒资列表,以及每个媒资中匹配的片段。
相似人脸搜索
创建一个指定名字的搜索库,接口说明详见CreateSearchLib - 创建搜索库。
在这个搜索库中创建索引,接口详见CreateSearchIndex - 创建搜索索引。对于相似人脸搜索,接口中的IndexType字段需填写
face
。使用SearchMediaByFace - 人脸图片搜媒资接口搜索媒资,结果返回匹配的媒资列表。
使用SearchMediaClipByFace - 人脸图片搜媒资片段接口进一步搜索某一个匹配媒资中,对应人脸出现的片段。结果会返回片段列表,以及人脸相关信息。
媒体DNA的使用
与其他视频检索方式不同,媒体DNA支持使用视频搜索视频。由于视频提取特征的时间较长,媒体DNA的搜索接口是异步的,所以提供了一套不同的OpenAPI接口与调用方式。
关于媒体DNA的概念与使用方式,详见媒体DNA。
玩法技巧
人脸集锦视频制作
基于人脸检索生成人脸集锦的功能,是一种融合了人脸识别技术与创意表达手段的创新方式。该技术不仅能够迅速高效地从海量图片或视频中定位包含特定人脸的影像,还可以通过智能媒体服务的视频剪辑及高级模板功能,将这些片段或图像以独特而富有创意的方式组合成一段人脸集锦,从而记录生活中的精彩瞬间。实现这一玩法的技巧与步骤介绍详见人脸集锦视频制作教程