文档

Proxima Cluster参数

更新时间:

1. 聚类

1.1 KmeansCluster / BatchKmeansCluster

参数名

类型

默认值

备注

proxima.general.cluster.count

UINT32

0

中心点数量

proxima.kmeans.cluster.count

UINT32

0

中心点数量,优先级高于 general,低于 suggest 的 K 值

proxima.kmeans.cluster.shard_factor

FLOAT

16.0f

多线程并发度调优因子

proxima.kmeans.cluster.epsilon

DOUBLE

FL_EPSILON

聚类收敛精度

proxima.kmeans.cluster.max_iterations

UINT32

20

最大迭代次数

proxima.kmeans.cluster.purge_empty

BOOL

false

是否删除空中心点

proxima.kmeans.cluster.seeker_class

STRING

LinearSeeker

查找中心点算法类

proxima.kmeans.cluster.seeker_params

IndexParams

查找中心点算法类参数

IndexParams 对象

1.2 GpuKmeansCluster

参数名

类型

默认值

备注

proxima.general.cluster.count

UINT32

0

中心点数量

proxima.kmeans.cluster.count

UINT32

0

中心点数量,优先级高于 general,低于 suggest 的 K 值

proxima.kmeans.cluster.epsilon

DOUBLE

FL_EPSILON

聚类收敛精度

proxima.kmeans.cluster.max_iterations

UINT32

100

最大迭代次数

proxima.kmeans.cluster.purge_empty

BOOL

false

是否删除空中心点

1.3 MiniBatchKmeansCluster

参数名

类型

默认值

备注

proxima.general.cluster.count

UINT32

0

中心点数量

proxima.minibatchkmeans.cluster.count

UINT32

0

中心点数量,优先级高于 general,低于 suggest 的 K 值

proxima.minibatchkmeans.cluster.shard_factor

FLOAT

16.0f

多线程并发度调优因子

proxima.minibatchkmeans.cluster.epsilon

DOUBLE

FL_EPSILON

聚类收敛精度

proxima.minibatchkmeans.cluster.max_iterations

UINT32

20

最大迭代次数

proxima.minibatchkmeans.cluster.purge_empty

BOOL

false

是否删除空中心点

proxima.minibatchkmeans.cluster.try_count

UINT32

20

尝试次数,最小值为 1

proxima.minibatchkmeans.cluster.batch_count

UINT32

0(自动计算)

批量训练的采样的特征数量,如果为 0,则值为特征总数除以尝试次数

proxima.minibatchkmeans.cluster.seeker_class

STRING

LinearSeeker

查找中心点算法类

proxima.minibatchkmeans.cluster.seeker_params

IndexParams

查找中心点算法类参数

1.4 BikmeansCluster

参数名

类型

默认值

备注

proxima.general.cluster.count

UINT32

0

中心点数量

proxima.bikmeans.cluster.count

UINT32

0

中心点数量,优先级高于 general,低于 suggest 的 K 值

proxima.bikmeans.cluster.init_count

UINT32

0(自动计算)

第一阶段聚类初始化的中心点数,如果为 0,则值为特征总数除以四。

proxima.bikmeans.cluster.purge_empty

BOOL

false

是否删除空中心点

proxima.bikmeans.cluster.first_class

STRING

KmeansCluster

第一阶段聚类方法

proxima.bikmeans.cluster.second_params

IndexParams

第一阶段聚类方法参数

proxima.bikmeans.cluster.second_class

STRING

KmeansCluster

第二阶段聚类方法

proxima.bikmeans.cluster.second_params

IndexParams

第二阶段聚类方法参数

1.5 KmeansppCluster

参数名

类型

默认值

备注

proxima.general.cluster.count

UINT32

0

中心点数量

proxima.kmeanspp.cluster.count

UINT32

0

中心点数量,优先级高于 general,低于 suggest 的 K 值

proxima.kmeanspp.cluster.shard_factor

UINT32

16.0f

多线程并发度调优因子

proxima.kmeanspp.cluster.class

STRING

KmeansCluster

初始化完中心点后,调用的聚类方法

proxima.kmeanspp.cluster.params

IndexParams

聚类方法参数

1.6 Kmc2Cluster / AFKmc2Cluster

参数名

类型

默认值

备注

proxima.general.cluster.count

UINT32

0

中心点数量

proxima.kmc2.cluster.count

UINT32

0

中心点数量,优先级高于 general,低于 suggest 的 K 值

proxima.kmc2.cluster.shard_factor

UINT32

2.5f

多线程并发度调优因子

proxima.kmc2.cluster.markov_chain_length

UINT32

0u

马尔科夫链长度,如果为 0,则值为线程数乘以并发因子

proxima.kmc2.cluster.class

STRING

KmeansCluster

初始化完中心点后,调用的聚类方法

proxima.kmc2.cluster.params

IndexParams

聚类方法参数

1.7 KmedoidsCluster

参数名

类型

默认值

备注

proxima.general.cluster.count

UINT32

0

中心点数量

proxima.kmedoids.cluster.count

UINT32

0

中心点数量,优先级高于 general,低于 suggest 的 K 值

proxima.kmedoids.cluster.shard_factor

FLOAT

16.0f

多线程并发度调优因子

proxima.kmedoids.cluster.epsilon

DOUBLE

FL_EPSILON

聚类收敛精度

proxima.kmedoids.cluster.max_iterations

UINT32

20

最大迭代次数

proxima.kmedoids.cluster.purge_empty

BOOL

false

是否删除空中心点

proxima.kmedoids.cluster.bench_ratio

FLOAT

0.1f

候选点比例

proxima.kmedoids.cluster.only_means

BOOL

false

仅考虑均值作为候选点(算法退化为 kmeans)

proxima.kmedoids.cluster.without_means

BOOL

false

不考虑均值作为候选点

proxima.kmedoids.cluster.seeker_class

STRING

LinearSeeker

查找中心点算法类

proxima.kmedoids.cluster.seeker_params

IndexParams

查找中心点算法类参数

IndexParams 对象

1.8 StratifiedCluster

参数名

类型

默认值

备注

proxima.general.cluster.count

UINT32

0

第二层中心点总数量

proxima.stratified.cluster.count

UINT32

0

第二层中心点总数量,优先级高于 general,低于 suggest 的 K 值

proxima.stratified.cluster.first_class

STARING

KmeansCluster

第一层聚类方法

proxima.stratified.cluster.second_class

STARING

KmeansCluster

第二层聚类方法

proxima.stratified.cluster.first_count

UINT32

0

第一层聚类中心点数量

proxima.stratified.cluster.second_count

UINT32

0

第二层聚类中心点数量

proxima.stratified.cluster.first_params

IndexParams

第一层聚类方法参数

proxima.stratified.cluster.second_params

IndexParams

第二层聚类方法参数

proxima.stratified.cluster.auto_tuning

BOOL

false

2. 聚类预估

2.1 GapstatsClusterEstimater