图搜场景快速入门

购买实例

购买实例可参考购买OpenSearch向量检索版实例

配置实例

新购买的实例,在其详情页中,实例状态为“待配置”,之后需要进入实例详情页,为该实例配置表基础信息 > 数据同步 > 字段配置 > 索引结构 > 确认创建,最后等待索引重建完成即可正常搜索。

image

1. 表基础信息

进入实例列表页,在左侧导航栏中找到表管理,点击添加表开始表基础信息设置,依次输入表名称数据分片数数据更新资源数,其中场景模板选择“向量:图片搜索”模板,设置完成后点击下一步

image

image

配置说明

  • 表名称:可自定义。

  • 数据分片数:分片数设置时,请填写不超过256的正整数, 用于提升全量构建速度、单次查询性能。(部分存量实例,仍需各索引表分片数保持一致;或至少一个索引表分片数为1,其余索引表分片数一致)

  • 数据更新资源数:数据更新所用资源数,每个索引默认免费提供248G的更新资源,超出免费额度的资源将产生费用,详情可参考向量检索版计费概述

  • 场景模板:向量检索版内置了3种模板可供用户选择:通用、向量-图片搜索、向量-文本语义模板。

说明

如果需要将原始数据转为向量数据可参考端到端图搜解决方案

2. 数据同步

选择全量数据来源(目前支持的数据源有MaxCompute+API对象存储OSS+API数据湖构建(DLF)API数据源),本文以MaxCompute+API为例,依次设置AccessKeyAccessKey SecretProjectTablePartition,按需选择是否开启自动索引重建,设置完成后在数据来源校验点击校验,通过后才可以进行下一步操作。

image

3. 字段配置

向量检索版会根据选择的场景模板,预置相关字段,并将全量数据来源中的字段,自动导入字段列表中。其中向量:图片搜索模板至少需要包含4个预置字段,1.id(主键)、2.source_image(源图片)、3.namespace(命名空间)、4.source_image_vector(源图片向量)。

image

字段配置说明:

  • 必选字段:主键字段和向量字段,主键字段为intstring类型并且需要勾选主键按钮,向量字段为float类型并且需要勾选向量字段按钮。

  • 向量字段默认为多值的float类型,控制台建表默认采用逗号切分,支持自定义多值分隔符。

  • 图片向量化的字段需要勾选“需embedding字段”。

  • 使用向量检索,在定义字段时有位置要求,需要按照主键字段、命名空间字段(非必要)、向量字段的顺序创建。(如上图所示)

  • 在需数据预处理的去配置,可以对source_image预设字段进行配置。

字段 source_image 数据预处理配置说明:

image

  • 数据来源:有OSS对象存储和Base64编码的两种数据类型选项。

    • OSS对象存储:需要填写OSS路径,其实是将图片存储在OSS的文件夹里面,从OSS直接导入。

    • Base64编码:相当于需要先将图片进行一次编码,然后存储在数据库中,或者直接用API方式进行传输。

  • 预处理模板:会根据要进行预处理的数据类型(文本或图片)而展示不同模板,由于字段的数据是图片类型,所以此时预处理模板展示的分别为(1.图片向量化、2.OCR图片文字识别、3.OCR图片文字识别+图片向量化)三种模板。

  • 服务列表:

    • 选定预处理模板后,自动出现模板下的服务列表,展示该模板下所用到的模型种类。

    • 可选的模型有两个来源:

      • 内置模型:模型种类与数量较少,可免费调用。

      • AI搜索开放平台:模型能力丰富,需按调用量收费,计费详情参见计费方式和计费项,在使用AI搜索开放平台前完成工作空间和API Key开通。

    • AI平台OCR图片文字识别/文本向量服务

      • OCR图片文字识别:针对架构图、分析图表等图片数据,AI搜索开放平台提供图片内容理解服务,可基于多模态大模型对图片内容进行解析理解以及文字识别,也可基于OCR能力对图片文字进行识别,将文字信息提取出来,用于图片检索及问答等场景。

      • 文本向量化:提供将文本数据转化为稠密向量形式表达的服务,支持多款不同语言、输入长度、输出维度的文本向量模型,可用于信息检索、文本分类、相似性比较等场景。

  • 生成字段:原始图片数据经过模型处理后,会被自动转化为其他格式,生成新的字段内容

    • embedding处理类的服务,默认必须生成字段。

    • ocr服务可选是否生成字段。

  • 接口调用配置:为了成功访问AI搜索开放平台,需要完成工作空间、API Key、连接域名的设置。image

4. 索引结构

OpenSearch会对主键与向量字段自动构建索引,索引名与字段名相同,只需要在控制台配置向量索引:

image.png

高级配置按需填写,详情可参考向量索引通用配置

说明
  • 主键字段、向量字段必须填写,命名空间字段非必填,可以为空。

  • 仅支持选择固定的三个字段,不支持新增。

  • 系统自动填充向量索引的配置参数,如无特殊需求,可直接点击「确定」快速完成配置。

  • 命名空间字段:实例引擎版本为vector service 1.0.2及以下版本,namespace标签字段不支持string格式类型;实例引擎版本为vector service 1.0.2及以上版本,无此限制。

5. 确认创建

索引配置完成后,点击确认创建

image.png

6. 变更历史

实例管理-变更历史-数据源变更,可以看到创建表及新增索引及索引重建的所有FSM,全部完成之后引擎搭建完成,可以开始查询测试:

image.png

7. 查询测试

在左侧导航栏向量管理 > 查询测试进行查询查询测试同时支持表单/开发者模式。

7.1 表单模式

依次选择好表单模式 > 表名Query类型可以选择向量、文本、图片,本次以图片类型为例,图片提供方式选择上传图片文件,上传完成图片后,点击搜索就可以在搜索结果栏中查看到结果了。

image

7.2 开发者模式

依次选择好开发者模式 > 表名,在下方的搜索框内输入查询参数,完成后点击搜索就可以在右侧的结果栏内看到查询结果。

image

  • vector:具体要查询的向量

  • topK:取top K个结果

  • includeVector:是否返回文档中的向量信息

详细的查询语法可参考下方的语法说明。

语法说明

SDK中使用向量检索