基于多模态特征的媒资内容检索-智能媒资检索-智能媒体服务-阿里云

阿里云智能媒资检索功能（简称智能检索或多模检索）是一种基于AI算法的音视频内容分析与搜索工具。支持从海量音视频中高效检索目标内容。无需人工标注，通过视觉、音频、文本等多模态特征实现秒级响应。

功能说明

多模态特征支持

通过多种模态（视觉、音频、文本）的特征提取与匹配，实现对视频、图片内容的综合分析与检索。

模态	特征	能力说明
视觉	人脸识别	支持超过50万名人、政治人物、敏感人物的识别。支持用人脸图片搜索人物。
	Logo识别	支持识别500多个央视及各卫视电视台台标。支持识别200多个主流中英文车标。支持识别常见交通标志。支持识别20多万个品牌标识。
	字幕解析	支持识别中英文。支持动态字幕。
	画面语义理解	基于多模态表征大模型的视觉语义提取与搜索。
	画面相似度	基于图像指纹特征查找相似的图片或视频。
音频	语音识别	支持从ASR的结果中搜索。
文本	标题、描述	支持从标题和描述中搜索。

搜索能力与形式

搜索能力	搜索形式	原理	使用场景
标签检索	关键词搜索	使用AI算法自动提取媒资中的标签、关键词等文本信息进行搜索。可搜索的内容包括媒资中出现的人名、字幕等。	视频网站内容检索、视频素材检索
大模型检索	自然语言搜索	基于AIGC大模型对媒资内容进行向量化语义分析，找到最接近Query语句的内容。	视频网站内容检索、个人网盘查找、视频素材检索
人脸检索	人脸图片搜索	提取媒资中所有人脸特征，比对查找与给定人脸图片相似的人脸，返回对应的媒资及片段。	个人网盘查找、人脸翻库、人物搜寻
DNA搜索	图片、视频搜索	提取图片或视频的指纹特征（DNA），比对查找类似的图片或视频。	UGC视频查重、剧照搜剧

性能指标

可支持高达数十万小时的视频。
搜索结果秒级响应。

费用说明

智能检索功能将按照智能标签分析的视频时长、检索库存储视频量产生计费。如您不再使用该功能，请及时关闭检索能力，否则将会产生计费。

检索类型	计费维度	相关文档
标签检索	按存储的媒资个数和搜索次数计费。	智能检索计费
大模型检索	按存储的媒资时长和搜索次数计费。
人脸检索	按存储的人脸特征数量和搜索次数计费。
DNA检索	按DNA提取的视频时长计费。	视频DNA

基本概念

注：DNA搜索请直接参阅【媒体DNA的使用】章节

要使用智能检索，您需要了解以下概念：

概念	解释	备注
媒资	具体的媒体记录	当前支持音视频、图片。
媒资库	存储媒资的数据库	每个客户默认有且只有1个媒资库，通过控制台上传的视频都在此媒资库中。
搜索库	专用于搜索的媒资库	媒资库仅用于存储媒资，而搜索库是专用于搜索，仅存储用于搜索的必要信息。 IMS媒资库有一个默认的搜索库，用于搜索IMS媒资库。可以创建其他搜索库，单独管理媒资；相当于可与第三方媒资库结合，为第三方媒资库提供搜索能力。
搜索索引	搜索库的搜索能力	用于管理和组织搜索库中的媒资数据。开启相关索引，才具备相关的查询能力。标签索引：开启后提供基于智能标签的标签检索能力人脸索引：开启后提供根据人脸图片搜索的能力大模型索引：开启后提供多模态语义的自然语言搜索能力

使用逻辑

‌媒资管理：用户将媒资（如视频、图片）上传至IMS媒资库，如果尚未自定义搜索库，这些上传的媒资会自动同步到系统默认搜索库。
搜索库管理‌：IMS提供了一个默认搜索库来帮助用户存储和检索上传的媒体资源。此外，系统还支持用户根据自身需求创建多个自定义搜索库。系统能够对上传至搜索库的媒资进行智能分析，并自动保存分析结果，从而提升查询效率。
‌搜索索引管理‌：搜索库包含人脸索引、AI标签索引和大模型索引三种索引类型，用户可为搜索库创建相关搜索索引。
OpenAPI调用：系统提供了丰富的OpenAPI接口，通过这些接口，用户可以对搜索库中的媒资进行增删改查、插入或删除媒资，并对搜索库内的索引进行增删改查操作。

基于控制台的使用流程

准备工作：开启媒资智能分析

登录智能媒体服务控制台，从左侧导航栏进入检索管理 > 智能检索页面。
单击右上角的智能检索配置按钮，您可以根据需要选择开启对应的搜索能力。

上传媒资

登录智能媒体服务控制台，从左侧导航栏进入媒资库-音/视频页面。
点击上传音/视频按钮，上传媒资。具体的上传操作说明，详见控制台上传。
上传完成后，媒资会进行自动分析。分析完成后即可进行搜索。如果想确认自动分析是否完成，可点击媒资列表中的管理标签，进入详情页面，查看媒资的内容搜索入库状态。

搜索媒资

登录智能媒体服务控制台，从左侧导航栏进入智能检索页面。
切换下拉框，选择检索类型。
1. 如果是标签检索，建议query内容为词语或词组，如人名、地名、关键词等。
2. 如果是大模型检索，建议query内容为自然语言，例如“海边日出”、“大街上车来车往”。
3. 如果是人脸检索，建议query内容为人脸图片。

基于OpenAPI自建搜索库的使用流程

在控制台上使用，只能搜索智能媒体服务的默认媒资库。如果您的媒资库不在智能媒体服务中，又想使用智能检索，可以通过OpenAPI自建搜索库解决。操作流程如下：

重要

创建索引后仅针对后续插入搜索库的媒资生效，当前尚不支持对存量媒资生效。
插入的媒资是否建立索引成功，可通过QueryMediaIndexJob - 查询媒资索引任务接口查询。
只有建立索引成功的媒资才能被检索到。

创建搜索库

使用CreateSearchLib - 创建搜索库接口创建指定名字的搜索库。

创建搜索索引

使用CreateSearchIndex - 创建搜索索引接口为搜索库创建索引：

标签检索：IndexType字段填写aiLabel。
大模型检索：IndexType字段填写mm。
相似人脸搜索：IndexType字段填写face。

插入媒资到搜索库

入库方式1：入库到媒资库+搜索库

通过调用RegisterMediaInfo - 注册内容库资源接口上传媒资，需在RegisterConfig中设置参数SearchLibName（搜索库的名称）。例如："RegisterConfig":{"SearchLibName":"test"}。如未填写，则系统将自动设置为默认搜索库。

插入媒资是否建立索引成功，可通过QueryMediaIndexJob - 查询媒资索引任务接口查询。

入库方式2：仅入库到搜索库

通过调用InsertMediaToSearchLib - 插入媒资到搜索库接口插入媒资到搜索库。

搜索媒资

标签检索：
使用SearchMediaByAILabel - 智能标签文本搜索接口搜索媒资，分为粗搜和精搜两个阶段。
1. 第一次调用，选择粗搜模式，结果返回匹配的媒资列表
2. 第二次调用，选择精搜模式，结果返回具体某个媒资中，匹配的片段列表
大模型检索：
使用SearchMediaByMultimodal - 大模型搜索接口搜索媒资，结果返回匹配的媒资列表，以及每个媒资中匹配的片段。
相似人脸搜索：
1. 使用SearchMediaByFace - 人脸图片搜媒资接口搜索媒资，返回匹配的媒资列表；
2. 使用SearchMediaClipByFace - 人脸图片搜媒资片段进一步搜索某一个匹配媒资中，对应人脸出现的片段。结果会返回片段列表，以及人脸相关信息。

媒体DNA的使用

与其他视频检索方式不同，媒体DNA支持使用视频搜索视频。由于视频提取特征的时间较长，媒体DNA的搜索接口是异步的，所以提供了一套不同的OpenAPI接口与调用方式。

关于媒体DNA的概念与使用方式，详见媒体DNA。

最佳实践

标签检索

核心策略：推荐精准的词语搜索，避免使用无明确含义的搜索词。

搜索场景	推荐	不推荐
搜索人名：“刘德华”	刘德华、华仔	歌手、著名歌手、演员
搜索地标：“埃菲尔铁塔”	埃菲尔铁塔	法国地标
搜索语音、字幕：“北京天安门广场迎来第一缕阳光”	北京天安门、天安门、天安门广场、第一缕阳光、阳光	京天、场迎、来第

大模型检索

核心策略：建议使用完整的自然语言描述来匹配画面，最好包含1至2个搜索关键词，过多的关键词可能导致部分匹配现象出现；同时，不建议使用过于简短且含义不明确的搜索语句。

类别	推荐	不推荐	分析
人物形象描述	儿童在公园游玩	穿着红色衣服背着书包的儿童在公园游玩。	红色衣服、书包、儿童、公园关键词过多。
人物形象描述	农民在田间劳动	-	-
动作描述	足球运动员受伤	羽毛球挑边	挑边专业词汇难理解
	篮球运动员投篮	-	-
	马龙发球	-	-
物体、风景、场景描述	艾尔菲铁塔	幸福幼儿园	特定小地标难理解
镜头描述	舞台远景画面	-	-
	黄山航拍	-	-
	主持人近景画面	-	-
情感生活描述	-	人与人相处要有边界感	抽象类难理解
艺术诗词描述	-	春风化雨育桃李	抽象类难理解

玩法技巧

人脸集锦视频制作

基于人脸检索生成人脸集锦的功能，是一种融合了人脸识别技术与创意表达手段的创新方式。该技术不仅能够迅速高效地从海量图片或视频中定位包含特定人脸的影像，还可以通过智能媒体服务的视频剪辑及高级模板功能，将这些片段或图像以独特而富有创意的方式组合成一段人脸集锦，从而记录生活中的精彩瞬间。实现这一玩法的技巧与步骤介绍详见人脸集锦视频制作教程

联系我们

阿里云智能媒体服务智能媒资检索功能使用或问题咨询等，请搜索钉钉群（30415005038）加入智能媒体服务多模检索客户答疑群联系我们。