相对于通过标题或元数据匹配和过滤的传统媒资搜索,智能媒资检索能够利用AI算法对音视频内容进行智能分析,从而可以从视觉语义、人脸相似度等维度进行更有力的检索。
功能说明
智能媒资检索,简称智能检索,又称为多模检索。通过AI算法对媒资内容的分析,无需人工对音视频内容打标,即可直接搜索音视频中出现的内容。
阿里云智能媒体服务智能媒资检索功能使用或问题咨询等,请搜索钉钉群(30415005038)加入智能媒体服务多模检索客户答疑群联系我们。
阿里云智能媒体服务的智能检索能力如下:
视频跨模态搜索,支持从视觉、音频、文本多个模态搜索
支持的媒资形式:视频、音频、图片
支持的搜索形式:关键词搜索、自然语言搜索、图片搜索
可支持高达数十万小时视频,搜索结果秒级响应
模态 | 特征 | 能力说明 |
图像 | 人脸 | 支持超过50万名人、政治人物、敏感人物的识别 支持用人脸图片搜索人物 |
Logo | 支持识别500多个央视及各卫视电视台台标; 支持识别200多个主流中英文车标; 支持识别常见交通标识; 支持识别20多万个品牌标识; | |
字幕 | 支持识别中英文 支持动态字幕 | |
画面语义 | 基于多模态表征大模型的视觉语义提取与搜索 | |
音频 | 语音 | 支持从ASR的结果中搜索 |
文本 | 标题、描述 | 支持从标题和描述中搜索 |
智能检索目前有3种搜索能力,对应的使用场景、成本和费用均有区别。
搜索能力 | Query形式 | 原理 | 使用场景 | 费用 |
全量搜索 | 关键词 | 使用AI算法自动对媒资内容提取标签、关键词等文本信息,然后用于搜索。可搜索的内容包括媒资中出现的人名、字幕等等。 | 视频网站内容检索 视频素材检索 | 按存储的媒资个数和搜索次数计费 |
大模型搜索 | 自然语言 | 使用AIGC大模型自动对媒资内容进行向量化语义分析,找到最接近Query语句语义的内容。 | 视频网站内容检索 个人网盘查找 视频素材检索 | 按存储的媒资时长和搜索次数计费 |
相似人脸搜索 | 人脸图片 | 自动提取媒资中出现的所有人脸特征,比对和查找与给定人脸图片相似的人脸,返回对应的媒资,以及出现的片段。 | 个人网盘查找 人脸翻库 人物搜寻 | 按存储的人脸特征数量和搜索次数计费 |
概念介绍
要使用智能检索,您需要了解以下概念:
概念 | 解释 | 备注 |
媒资 | 具体的媒体记录 | 当前只支持两种类型:音视频、图片。 |
媒资库 | 存储媒资的数据库 | 当前IMS每个客户默认有且只有1个媒资库,通过控制台上传的视频都在此媒资库中。 |
搜索库 | 专用于搜索的媒资库 |
|
搜索索引 | 搜索库的搜索能力 | 用于管理和组织搜索库中的媒资数据。开启相关索引,才具备相关的查询能力:
|
用户使用逻辑如下图所示:
基于控制台的使用流程
准备工作:开启媒资智能分析
登录智能媒体服务控制台,从左侧导航栏进入智能检索页面。
点击右上角的智能检索配置按钮,打开配置页面:
如果您想使用全量检索,请开启媒资自动分析
如果您想使用大模型检索,请开启大模型自动分析
上传媒资
登录智能媒体服务控制台,从左侧导航栏进入媒资库-音/视频页面。
点击上传音/视频按钮,上传媒资。具体的上传操作说明,详见控制台上传。
上传完成后,媒资会进行自动分析。分析完成后即可进行搜索。如果想确认自动分析是否完成,可点击媒资列表中的管理标签,进入详情页面,查看媒资的内容搜索入库状态。
搜索媒资
登录智能媒体服务控制台,从左侧导航栏进入智能检索页面。
切换下拉框,选择全量检索或是大模型检索:
如果是全量检索,建议query内容为词语或词组,如人名、地名、关键词等
如果是大模型检索,建议query内容为自然语言,例如“海边日出”、“大街上车来车往”
点击结构表头中的媒体类型筛选图标,可选择检索音视频媒资还是图片媒资。
基于自建搜索库的使用流程
在控制台上使用,只能搜索智能媒体服务的默认媒资库。如果您的媒资库不在智能媒体服务中,又想使用智能检索,可以通过OpenAPI自建搜索库解决。
整体的使用流程:创建搜索库 - 创建搜索索引 - 插入媒资到搜索库 - 搜索
创建索引后仅针对后续插入搜索库的媒资生效,当前尚不支持对存量媒资生效。
插入的媒资是否建立索引成功,可通过QueryMediaIndexJob - 查询媒资索引任务接口查询。
只有建立索引成功的媒资才能被检索到。
下面是具体的使用方式。
全量搜索
创建一个指定名字的搜索库,接口说明详见CreateSearchLib - 创建搜索库。
在这个搜索库中创建索引,接口详见CreateSearchIndex - 创建搜索索引。对于全量搜索,接口中的IndexType字段需填写
aiLabel
。使用InsertMediaToSearchLib - 插入媒资到搜索库接口将媒资信息添加到搜索库中。
使用SearchMediaByAILabel - 智能标签文本搜索接口搜索媒资,分为两个阶段:
第一次调用,选择粗搜模式,结果返回匹配的媒资列表。
第二次调用,选择精搜模式,结果返回具体某个媒资中,匹配的片段列表。
大模型搜索
创建一个指定名字的搜索库,接口说明详见CreateSearchLib - 创建搜索库。
在这个搜索库中创建索引,接口详见CreateSearchIndex - 创建搜索索引。对于大模型搜索,接口中的IndexType字段需填写
mm
。使用InsertMediaToSearchLib - 插入媒资到搜索库接口将媒资信息添加到搜索库中。
使用SearchMediaByMultimodal - 大模型搜索接口搜索媒资,结果返回匹配的媒资列表,以及每个媒资中匹配的片段。
相似人脸搜索
创建一个指定名字的搜索库,接口说明详见CreateSearchLib - 创建搜索库。
在这个搜索库中创建索引,接口详见CreateSearchIndex - 创建搜索索引。对于相似人脸搜索,接口中的IndexType字段需填写
face
。使用InsertMediaToSearchLib - 插入媒资到搜索库接口将媒资信息添加到搜索库中。
使用SearchMediaByFace - 人脸图片搜媒资接口搜索媒资,结果返回匹配的媒资列表。
使用SearchMediaClipByFace - 人脸图片搜媒资片段接口进一步搜索某一个匹配媒资中,对应人脸出现的片段。结果会返回片段列表,以及人脸相关信息。