视频搜索快速入门

本文介绍向量检索版的视频搜索功能。向量检索版可以将存在OSS中的视频文件进行数据处理,通过向量搜索实现视频搜索的功能。

说明

视频搜索功能当前支持上海区域与德国(法兰克福)区域。

购买实例

购买实例可参考购买OpenSearch向量检索版实例

配置实例

在新购买的实例详情页中,实例状态为“待配置”,为该实例配置表基础信息>数据同步>字段配置>索引结构>确认创建,最后等待索引重建完成即可正常搜索。

1.表基础信息

进入实例列表页,在左侧导航栏中找到表管理,点击添加表开始表基础信息设置,依次输入表名称数据分片数数据更新资源数,其中场景模板选择“向量:视频搜索”模板,设置完成后点击下一步

image

配置说明

  • 表名称:可自定义。

  • 数据分片数:分片数设置时,请填写不超过256的正整数,用于提升全量构建速度、单次查询性能。(部分存量实例,仍需各索引表分片数保持一致;或至少一个索引表分片数为1,其余索引表分片数一致)

  • 数据更新资源数:数据更新所用资源数,每个索引默认免费提供248G的更新资源,超出免费额度的资源将产生费用,详情可参考向量检索版计费概述

  • 场景模板:向量检索版内置了4种模板可供用户选择:通用、向量-图片搜索、向量-文本语义模板、向量:视频搜索。

2.数据同步

选择全量数据来源(目前视频搜索支持MaxCompute+APIOSS + API 数据源API数据源),本文以MaxCompute+API为例,依次完成参数配置,通过数据来源校验后进行下一步的操作。

在视频搜索模板下,您的数据经由选择的全量数据来源,会先上传至AI搜索开放平台-离线平台进行数据处理,之后再导入OpenSearch向量检索版进行索引构建。

image

配置参数说明

  • AccessKey:阿里云账号或RAM用户的AccessKey ID。

  • AccessKey Secret:AccessKey ID对应的AccessKey Secret。

  • 项目名 (Project):访问的目标MaxCompute项目名称。

  • 表名 (Table):访问的目标MaxCompute表名。

  • 表数据分区 (Partition):MaxCompute数据源必须设置分区键; 示例:ds=20170626。

说明

开启自动索引重建,则必须创建done表,创建方式可参考自动索引重建

3.字段配置

向量检索版会根据选择的场景模板,预置相关字段,并将全量数据来源中的字段,自动导入字段列表中。

image

字段配置说明:

  • 字段标签:视频搜索模板下,可以为手动填入的字段选择字段标签,包含视频主键视频链接视频标签视频标题,其中必须勾选视频主键视频链接标签。

  • 视频链接字段:在需数据预处理的去配置,需进行数据预处理配置。

  • 系统字段:完成数据预处理配置后,系统会自动生成主键字段与帧字段。

  • 向量字段默认为多值的float类型,控制台建表默认采用逗号切分,支持自定义多值分隔符。

视频链接标签字段数据预处理配置说明:

image

  • 数据来源:OSS对象存储。需要填写OSS路径,其实是将视频存储在OSS的文件夹里面,从OSS直接导入。

  • OSS 存储空间(Bucket):与当前OpenSearch实例所属地域一致的OSS Bucket名称。

  • OSS存放路径:同 Bucket 下的 OSS 路径,用于存放AI搜索开放平台-离线平台处理后的数据内容,用于系统后续索引构建。

  • 预处理模板:视频处理。

  • 服务列表:

    • 视频截帧,提供视频内容提取能力,可从视频中捕获关键帧画面。结合多模态向量服务或图片解析能力,实现跨模态检索。

    • 多模态向量:基于 Qwen2-VL 多模态大型语言模型(MLLMs) 训练的多模态向量服务,支持单一模态及多模态组合输入,能够高效处理文本、图像及组合类型的数据。

  • AI平台调用配置:为了成功访问AI搜索开放平台,需要完成工作空间、API Key、连接域名的设置。

4.索引结构

OpenSearch会对所有字段自动构建同名索引,只需要在控制台配置向量索引:

image

  • 向量索引:系统生成的帧向量字段,生成向量索引。

    说明
    • 主键字段、向量字段必须填写,命名空间字段非必填,可以为空。

    • 仅支持选择固定的三个字段,不支持新增。

    • 系统自动填充向量索引的配置参数,如无特殊需求,可直接点击「确定」快速完成配置。

    • 命名空间字段:实例引擎版本为vector service 1.0.2及以下版本,namespace标签字段不支持string格式类型;实例引擎版本为vector service 1.0.2及以上版本,无此限制。

    高级配置按需填写,详情可参考向量索引通用配置

  • 其他类型索引:系统生成的pk字段、生成主键索引,其余非向量类型的字段默认生成同名索引。

  • 索引全局配置:可以设置文档过期自动清理,开启后,当前时间-文档时间 > 过期时间时,该文档将被自动清理。

5.确认创建

索引配置完成后,点击确认创建

image.png

变更历史

实例管理-变更历史-数据源变更,可以看到创建表及新增索引及索引重建的所有FSM,全部完成之后引擎搭建完成,可以开始查询测试。

image.png

查询测试

在左侧导航栏向量管理>查询测试进行查询查询测试同时支持表单/开发者模式。

表单模式

依次选择好表单模式>表名Query类型支持向量、文本、图片与视频,本次以视频类型为例,视频提供方式选择OSS地址,OSS地址填写完成后,点击搜索就可以在搜索结果栏中查看到结果。(建议使用20M以内的视频进行查询测试,查询视频过大会有接口超时风险)

image

开发者模式

依次选择好开发者模式>表名,在下方的搜索框内输入查询参数,完成后点击搜索就可以在右侧的结果栏内看到查询结果。

说明

视频搜索中的开发者模式主键查询预置的JSON仅支持表主键查询。

表主键返回帧的单条数据:

image

视频主键返回视频下面帧的向量:

image

详细的查询语法可参考下方的语法说明。

语法说明

SDK中使用向量检索