Proxima Builder

LinearBuilder

参数名

类型

默认值

说明

proxima.linear.builder.column_major_order

string

false

构建的时候特征用行排(false)/列排(true)

QcBuilder

参数名

类型

默认值

说明

proxima.qc.builder.train_sample_count

uint32

0

指定训练数据量,如果为0则使用全部数据

proxima.qc.builder.thread_count

uint32

0

构建时开启线程数量,设置为0时为cpu核数

proxima.qc.builder.centroid_count

string

可选

聚类中心点参数,支持层次聚类。层之间用“*”分隔。

一层聚类示例:1000

两层示例:100*100

如果使用两层中心点,一般第一次中心点数量比第二层多,效果更好。经验值是第一层是第二层10倍。

未配置时,系统会自动推导出合适的中心点个数,建议由系统自动推导。

proxima.qc.builder.cluster_class

string

OptKmeansCluster

指定聚类方法,更多参见聚类文档

proxima.qc.builder.cluster_auto_tuning

bool

false

指定是否开启中心点数目自适应

proxima.qc.builder.cluster_params_in_level_

IndexParams

-

指定聚类方法需要的参数,详见聚类文档

每层需要分别制定,从1开始。

比如第一层的key是proxima.qc.builder.cluster_params_in_level_1

proxima.qc.builder.optimizer_class

string

HcBuilder

针对中心点部分的优化器,用于提升分类时的精度,后续在线候选中心点部分的查询均基于此方法进行,比如此处配置了HcBuilder,在线部分候选中心点查询时会用HcSearcher来进行查询,目前该参数可选择HcBuilder、HnswBuilder、SsgBuilder和LinearBuilder等方法

proxima.qc.builder.optimizer_params

IndexParams

-

optimize方法对应的构建和检索参数,比如optimizer配置了Hnswbuilder,那么该处参数可配置为:

proxima.hnsw.builder.max_neighbor_count: 100 proxima.hnsw.searcher.max_scan_ratio: 0.1

proxima.qc.builder.converter_class

string

-

如果Measure是InnerProduct,会自动进行Mips转换操作,使用L2检索

proxima.qc.builder.converter_params

IndexParams

-

proxima.qc.builder.converter_class 初始化参数

proxima.qc.builder.quantizer_class

string

-

配置量化器,默认不使用量化器。可选有 Int8QuantizerConverter, HalfFloatConverter, DoubleBitConverter。一般配置量化器可提升性能,减少索引大小,召回视情况有所损失

proxima.qc.builder.quantizer_params

IndexParams

-

配置上面量化器相关参数

proxima.qc.builder.optimizer_quantizer_class

string

-

配置对中心点进行量化的 converter 名称

proxima.qc.builder.optimizer_quantizer_params

IndexParams

-

对中心点进行量化的 converter 参数

proxima.qc.builder.quantize_by_centroid

bool

False

使用proxima.qc.builder.quantizer_class时,是否按中心点进行量化。目前仅支持 proxima.qc.builder.quantizer_class 为 Int8QuantizerConverter 的情况

proxima.qc.builder.store_original_features

bool

False

是否保留原始特征。使用proxima.qc.builder.quantizer_class 时,IndexProvider 获取的特征是量化后的,需要开始此选项,才能获取原始特征

HnswSearcher

参数名

类型

默认值

说明

proxima.hnsw.builder.max_neighbor_count

uint32

100

指定图中节点最大邻居数。该值越大,代表图的连通性越好,相应的构图成本和索引size也会增加。

proxima.hnsw.builder.efconstruction

uint32

500

指控制图构建过程中近邻扫描区域大小,该值越大,离线构图质量越好,索引构建越慢。建议初始从400配置

proxima.hnsw.builder.thread_count

uint32

0

构建时开启线程数量,设置为0时为cpu核数