独享集群高级功能

如何配置分列字段、倒排文档排序字段、超时时间。

按列查询

适用场景及优势

  • 有按列查询的需求。

  • 对单列超时比较敏感的业务。

  • 通过单列加大内存,将用户热数据进行高速缓存,减少集群的负载。

配置流程

  1. 线下变更/配置应用>索引结构配置中找到配置分列字段列表(选填)模块 :

image

  1. 选择包含字段:

image

  1. 配置热点值(可选),如果配置的分列字段存在分列严重不均的情况,建议配置热点值:

image

注意事项

  1. 只能选择一个字段为分列字段。

  2. 分列字段支持的类型有:INT、LITERAL。

倒排文档排序字段/超时时间

适用场景及优势

  • 希望在索引构建阶段自定义配置倒排文档的排序方式。

  • 指定倒排索引中文档的排序字段,系统会将质量好的文档排在倒排表的前面,提升查询效率。

  • 对引擎执行超时的时间比较敏感的业务。

配置流程

  1. 线下变更/配置应用>索引结构配置中找到高级配置(选填)模块 :

    image

  1. 如需配置倒排文档排序方式,可以点击右侧的配置按钮:

    image

  1. 高级配置窗口可以配置倒排文档排序方式指定的字段设置排序方式可选择升序降序,再点击确认即可:

    image

  1. 如需配置超时时间,可以点击右侧的配置按钮:

    image

  2. 高级配置窗口,可以自定义配置引擎执行超时的超时时间,再点击确认即可:

    image

注意事项

  1. 倒排文档排序功能最多可选二级字段,支持INT、FLOAT、DOUBLE字段类型;

  2. 超时时间的取值范围750~1500ms;

  3. 倒排文档排序字段超时时间都可一键恢复默认值

  4. 高级功能仅支持独享集群规格实例使用。

向量索引高级配置

适用场景及优势

向量检索算法

优势

劣势

场景

量化聚类(Quantized Clustering)

CPU、内存资源占用较低。

  • 召回率较HNSW低。

  • 查询速度较HNSW慢。

适用于亿级别数据集,对数据准确性和查询延迟要求不是非常高的场景。

HNSW(Hierarchical Navigable Small World)

召回率高、查询速度快。

CPU、内存资源占用较高。

适用于千万级别数据集,并且对数据准确性和查询延迟有严格要求的场景。

配置流程

行业算法版中当一个TEXT/SHORT_TEXT/DOUBLE_ARRAY类型的字段配置了向量分析器后,其对应的索引即为向量索引。在配置应用的索引结构中,可对向量索引配置命名空间向量索引算法距离类型

image

image

配置项:

  • 命名空间:必须为属性字段、类型为INT,默认为空。通过命名空间将向量索引进行分区,查询请求可被限制在索引的不同分区中。配置命名空间后,查询时必须指定命名空间。同时不建议命名空间数量超过10000个。

  • 向量索引算法:QCHNSW。默认为QC,HNSW仅限独享计算型实例使用。

  • 距离类型:InnerProduct(内积)SquaredEuclidean(欧式平方距离),默认为SquaredEuclidean。

    内积距离,向量得分越大,文档相关性越高。

    欧式距离,向量得分越小,文档相关性越高。