全部产品

K均值聚类

本文为您介绍算法组件中的K均值聚类组件。

功能说明

K均值聚类是一种矢量量化方法,在数据挖掘的聚类分析中很流行,目的是将n观察划分为多个k簇,其中每个观察都属于具有最均值的簇,作为簇的原型。

计算逻辑原理

使用KMeans算法进行建模。

使用流程说明

完成输入输出变量配置和参数配置。

参数说明

IN端口

参数名

参数描述

特征变量

配置模型特征列。

算法参数

参数名

参数描述

参数默认值

参数范围

簇的数量

要形成的簇的数量以及要生成的质心的数量。

8

[1, 99999999]

运行次数

k均值算法将在不同质心种子下运行的次数n,最终结果将是n次连续运行的最佳输出。

说明

由于K均值聚类是结果受初始值影响的局部最优的迭代算法,因此需要多运行几次以选择一个较好的聚类效果。默认值是10,一般不需要改。如果您的k值较大,则可以适当增大这个值。

10

[1, 99999999]

最大迭代次数

单次运行的k均值算法的最大迭代次数。

说明

如果是凸数据集,一般情况下可以不修改此值;如果不是凸数据集,可能很难收敛,此时建议指定最大的迭代次数,让算法可以及时退出循环。

300

[1, 99999999]

算法

  • 自动:根据数据值是否是稀疏的,来决定选择“K-Means”或“elkan K-Means”。建议直接使用此默认选项。

  • elkan K-Means:数据值稠密可以选择此算法。

  • K-Means:数据值稀疏可以选择此算法。

自动

  • 自动

  • K-Means算法

  • elkan K-Means算法

其他参数

参数名

参数描述

模型结果

模型结果展示模型聚类效果以及聚类结果,其中“CH分数(Calinski-Harabasz指标)”和“轮廓系数”反应聚类效果,值越大,说明聚类效果越好。