量化聚类(Quantized Clustering)配置

更新时间: 2023-09-14 10:56:49

QcBuilder

参数名

类型

默认值

说明

qc.builder.train_sample_count

uint32

0

指定训练数据量,如果为0则使用全部数据

qc.builder.thread_count

uint32

0

构建时开启线程数量,设置为0时为cpu核数

qc.builder.centroid_count

string

可选

聚类中心点参数,支持层次聚类。层之间用“*”分隔。

一层聚类示例:1000

两层示例:100*100

如果使用两层中心点,一般第一次中心点数量比第二层多,效果更好。经验值是第一层是第二层10倍。

未配置时,系统会自动推导出合适的中心点个数,建议由系统自动推导。

qc.builder.quantizer_class

string

-

配置量化器,默认不使用量化器。可选有 Int8QuantizerConverter, HalfFloatConverter, DoubleBitConverter。一般配置量化器可提升性能,减少索引大小,召回视情况有所损失

qc.builder.quantize_by_centroid

bool

False

使用proxima.qc.builder.quantizer_class时,是否按中心点进行量化。目前仅支持 proxima.qc.builder.quantizer_class 为 Int8QuantizerConverter 的情况

QcSearcher

参数名

类型

默认值

说明

qc.searcher.scan_ratio

float

0.01

用于计算max_scan_num数量,总doc数量 * scan_ratio

qc.searcher.brute_force_threshold

int

1000

如果总doc数少于此值,则走线性检索

阿里云首页 智能开放搜索 OpenSearch 相关技术圈