检索数据
在 OpenSearch 向量检索版中,支持多种数据检索方式,满足多样化的检索需求。
混合检索:结合使用传统文本检索与向量检索,同时利用结构化和非结构化数据,提高搜索结果的准确性。
向量检索包含稠密向量和稀疏向量检索,最终的分数是将稠密向量的距离和稀疏向量的距离加和得到的。使用欧式距离(SquareEuclidean)时,向量之间的距离越小表示相似度越高。
使用文本+向量混合检索时,文本部分的得分是基于关键词匹配度的,匹配度越高得分越高。最终综合得分是将向量距离(越小越好)和文本得分(越高越好)加和得到的,这会导致综合得分越大表示相关性越高。OpenSearch向量检索版支持通过设置不同的权重平衡向量距离和文本得分的影响。例如减少向量距离的权重,增加文本得分的权重,以达到更好的检索效果。
向量检索:用户将生成好的向量数据导入到向量检索版实例中,进行向量检索的查询。
单 Doc 多向量检索:用户在一个Doc中的某个向量字段中存储多个向量内容进行检索。
多 Query 查询:允许同时发送多个查询请求,提高检索效率和响应速度。
预测查询:用户将文本、图片通过向量检索版内置的向量化模型生成向量,并通过文本或图片进行检索的查询方式。
主键查询:通过唯一标识符快速检索特定文档,确保高效的数据访问。
Filter 表达式:利用过滤条件对查询结果进行精确限制,优化数据筛选过程。
倒排索引:使用倒排索引结构加速全文检索和快速定位相关文档,提高查询性能。