背景介绍
在RAG和语义搜索场景中,文本倒排索引和稠密向量的结合使用是一种常见的方法,用于高效地进行文本检索和相似性搜索。这种组合方式结合了倒排索引的快速检索能力和稠密向量的语义表示能力。
购买OS向量检索版实例
购买实例可参考购买OpenSearch向量检索版实例。
配置实例
新购买的实例,在其详情页中,实例状态为“待配置”,并且会自动部署一个与购买的查询节点和数据节点的个数及规格一致的引擎,之后需要为该实例配置表信息>数据同步>字段配置>索引结构,之后等待索引重建完成即可正常搜索。
1. 表基础信息
表管理点击“表添加",输入表名称,设置数据分片数和数据更新资源数,并选择场景模板:
配置说明:
表名称:可自定义。
数据分片数:分片数设置时,请填写不超过256的正整数, 用于提升全量构建速度、单次查询性能。(部分存量实例,仍需各索引表分片数保持一致;或至少一个索引表分片数为1,其余索引表分片数一致)
数据更新资源数:数据更新所用资源数,每个索引默认免费提供2个4核8G的更新资源,超出免费额度的资源将产生费用,详情可参考向量检索版计费概述。
2. 数据同步
配置数据源(目前支持的数据源有OSS数据源、MaxCompute数据源、API推送数据源和数据湖构建(DLF)),这里以OSS数据源为例,数据源类型选择对象存储OSS + API,设置OSS路径、OSS存储空间(Bucket)、选择数据格式之后可选择校验,通过后可点击下一步:
API 数据源文档参考
OSS + API 数据源文档参考
数据湖构建(DLF)文档参考
3. 字段配置
文本+稠密向量混合检索场景需要配置如下字段:主键(id)、稠密向量(vector)与文本倒排字段(title)。
字段配置说明:
必选字段:主键字段和向量字段,主键字段为int或string类型并且需要勾选主键按钮,
向量字段为必选字段,可多选,该字段为向量数据,校验字段类型为多值FLOAT。
字段类型选择TEXT,自动创建同名文本倒排索引。
4. 索引结构
配置说明:
向量索引
其他索引类型
对字段类型选择TEXT的参数,自动构建索引,索引类型为普通索引。
索引全局配置
可设置文档过期自动清理策略。
5. 确认创建
索引配置完成后,点击确认创建。
6. 变更历史
实例管理-变更历史-数据源变更,可以看到创建表及新增索引及索引重建的所有FSM,全部完成之后引擎搭建完成,可以开始查询测试: