使用元数据和向量语义检索OSS中的文件

建立数据索引,利用文件的元数据和向量语义作为查询条件,快速查找OSS中的图片、视频、文档、音频文件。

OSS数据索引的优势

  • 简单易用:直接使用OSS构建的数据索引,无需搬迁数据和自建检索系统。

  • 多模态支持:支持多种索引类型,包括OSS元数据、媒体元数据、自定义元数据、向量语义;提供近百种检索条件。

  • 高性能检索:实现秒级索引和聚合,能够构建最大支持百亿文件的索引库,满足大规模数据处理需求。

支持的数据检索方式

OSS支持标量检索和向量检索两种检索方式:

项目

标量检索

向量检索

定义

基于OSS元数据、对象ETag、对象标签等元数据属性进行匹配查询

通过将文档、图片、视频、音频等文件的信息表示为向量,并利用这些向量进行语义相似性的比较和检索,实现根据文件内容进行语义查询

使用场景

文件查询、文件统计

多模态检索、复杂文件检索

查询条件示例

查询2024年9月14日上传的、私有的、标准存储的文件

query.png

查询和“苹果”相关的图片

apple.png

返回结果示例

返回2024年9月14日上传的、私有的、标准存储的文件列表

标量检索.png

返回和“苹果”相关的图片文件列表

向量检索.png

如何选择数据检索方式

根据所需的检索条件,参考下表选择标量检索或向量检索:

检索条件

标量检索

向量检索

OSS元数据

对象标签和对象ETag

自定义元数据

多媒体元数据

向量语义

如何进行数据检索

对OSS中的数据进行标量检索和向量检索的流程如下:

进行标量检索

对OSS中的文件基于元数据属性进行查询的流程如下图所示:

image
  1. 应用上传图片、视频、文档、音频等文件到OSS Bucket。

  2. 具备OSS管理权限的RAM用户为Bucket开启数据索引,并选择标量检索。

  3. OSS使用系统默认的索引表结构,自动建立包含OSS元数据、对象ETag、对象标签的数据索引。

  4. 应用调用DoMetaQuery接口基于元数据属性进行查询。

  5. OSS返回满足查询条件的文件列表。

进行向量检索

对OSS中的文件基于元数据属性和向量语义进行组合查询的流程如下图所示:

image
  1. 应用上传图片、视频、文档、音频等文件到OSS Bucket。

  2. 具备OSS管理权限的RAM用户为Bucket开启数据索引,并选择向量检索。

  3. OSS使用系统默认的索引表结构和Embedding向量化模型,自动建立包含OSS元数据、对象ETag、对象标签、自定义元数据、多媒体元数据、向量语义的数据索引。

  4. 应用调用DoMetaQuery接口基于元数据属性和向量语义进行组合查询。

  5. OSS返回满足查询条件的文件列表。

开始进行数据检索

进行标量检索和向量检索的详细步骤请参见: