单节点快速入门

重要

本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。

本文为您介绍如何购买OpenSearch向量检索版单节点实例。

购买实例

  1. 进入OpenSearch控制台,在左上角切换到OpenSearch-向量检索版:然后在实例列表界面,单击创建实例image.png

  2. 商品版本选择向量检索版,选择地区,配置“数据节点数量”、“数据节点规格”、“单数据节点总存储空间”,设置“专有网络”和“虚拟交换机”,最后按提示要求设置用户名和用户密码(用于查询时校验权限,非阿里云账号密码),单击“立即购买”:image.png

    说明
    • 购买的数据节点的个数及规格,需根据自身业务进行规划,确定规格后实际费用可在售卖页自动生成。

    • 单节点方案,可不购买查询节点(即查询节点数量为0),查询节点规格族不生效。

    • 专有网络和虚拟交换的配置一定要和访问向量检索版实例的ECS机器保持一致。否则在访问向量检索版实例时会报错{'errors':{'code':'403','message':'Forbidden'}}。

    • 数据节点规格族SSD盘有50G的免费额度,额外额度按步长50GB收费;云盘型无免费额度,额度按步长50GB收费。

  3. 确认订单界面,查看服务协议,确认无误后,单击立即开通

  4. 购买成功后,单击管理控制台,即可在实例列表界面查看已购买的向量检索版实例。

配置实例

新购买的实例,在其详情页中,实例状态为“待配置”,并且会自动部署一个与购买的数据节点的个数及规格一致的空实例,之后需要为该实例配置表信息>数据同步>字段配置>索引结构,之后等待索引重建完成即可正常搜索。

image.png

1. 表基础信息

表管理单击“添加表",输入表名称,设置数据分片数数据更新资源数,选择需要的场景模板,单击下一步:

image

配置说明

  • 表名称:可自定义。

  • 数据分片数:由于是单节点实例,固定默认值为1,不可变更;当前实例仅支持单分片方案,可通过扩容支持多节点,详情可见扩缩容文档

  • 数据更新资源数:数据更新所用资源数,每个索引默认免费提供248G的更新资源,超出免费额度的资源将产生费用,详情可参考向量检索版计费概述

  • 场景模板:向量检索版内置了3种模板可供用户选择:通用、向量-图片搜索、向量-文本语义模板。

2. 数据同步

选择全量数据来源(目前支持的数据源有MaxCompute+API对象存储OSS+API数据湖构建(DLF)API),本文以MaxCompute+API为例,配置完参数校验通过后,点击下一步

image

3. 字段配置

OpenSearch会根据您选择的场景模板,预置相关字段,并会将全量数据来源中的字段(如有),自动导入字段列表中:

image

字段配置说明:

  • 必选字段:主键字段和向量字段,主键字段为intstring类型并且需要勾选主键按钮,向量字段为float类型并且需要勾选向量字段按钮;

  • 向量字段默认为多值的float类型,多值分隔符默认使用系统默认分隔符英文逗号“,”进行切分,也可以输入自定义多值分隔符。

  • 需数据预处理:String类型的字段点击去配置,可调用模型对该字段进行数据预处理,详情请参见调用AI搜索开放平台模型服务

  • 当数据中缺少字段或字段为空时,系统将自动补充默认值,数字类型默认补0,STRING类型默认补空字符串,支持自定义默认值

4. 索引结构

4.1. 向量索引

image

  • 主键字段、向量字段必须填写,命名空间字段非必填,可以为空。

  • 仅支持选择固定的三个字段,不支持新增。

  • 向量维度:根据模型生成的向量按需选择。

  • 距离类型:支持InnerProduct(内积距离,分数越大越相关)与SquareEuclidean(欧式距离,分数越小越相关)。

  • 向量索引算法:支持Linear、HNSW、QGraphQC,GPU规格实例额外支持CAGRA算法,算法详情可参考向量介绍

  • 实时索引:表示API的增量数据是否需要实时构建向量索引,默认为true。

  • 更多高级配置,可点击展开进行配置,参数说明可参考向量索引通用配置

    image

说明
  • 命名空间字段:实例引擎版本为vector service 1.0.2及以下版本,namespace标签字段不支持string格式类型;实例引擎版本为vector service 1.0.2及以上版本,无此限制。

4.2. 其他索引类型

OpenSearch已为除向量字段外的字段自动构建同名索引,可以在此管理;向量类型索引需手动配置

image

4.3. 索引全局配置

此功能默认关闭,开启后,可对整数类型字段设置过期时间。若当前时间-文档时间 > 过期时间,该文档将被自动清理。

image

5. 确认创建

索引配置完成后,单击确认创建,可以看到表状态在创建中,如下图所示。

image.png

6. 变更历史

实例管理-变更历史,可以看到近3天、7天、30天变更记录,例如:创建表、新增索引、扩容及全量的所有流程,如下截图是创建表的过程;全部完成之后引擎搭建完成,可以开始查询测试。

image

7. 查询测试

完成表创建和添加数据后,就可以在向量管理>查询测试进行查询查询测试同时支持表单模式/开发者模式。

7.1 表单模式

依次对表单模式 表名 Query类型进行设置,Query类型可以选择向量/文本类型,本次选择文本,在文本项中输入查询的文本内容,点击搜索后就可以在搜索结果栏中查看到结果。

image

7.2 开发者模式

依次对表单模式 表名 搜索框进行设置,在搜索框中输入查询相关参数,点击搜索后就可以在搜索结果栏中查看到结果。

image

  • vector:具体要查询的向量

  • topK:取top K个结果

  • includeVector:是否返回文档中的向量信息

结果演示

image.png

详细的查询语法可参考下文的语法说明。

语法说明

SDK中使用向量检索

单节点升级多节点

如果需要将一个单节点,升级多节点,可参考下面操作:

警告

单节点升级多节点变更期间实例不可用,具体变更进度可在变更历史页中查看相应的流程进度:

image

  1. 在实例列表界面,实例列表页中找到对应的实例,在右侧“操作”栏中单击"升/降配":

    image

  2. 在变配页中选择具体需要扩/缩容的查询节点数量、规格,并勾选“服务协议”后单击立即购买即可。

    image