K均值聚类

本文为您介绍K均值聚类组件。

功能说明

K均值聚类是一种矢量量化方法,在数据挖掘的聚类分析中很流行。K均值聚类通过试图分离 n 个相等方差组的样本来聚集数据,用最小化或者簇内和平方的标准。 该算法需要指定簇的数量,它可以很好地扩展到大量样本,并已经被广泛应用于许多不同的领域。

计算逻辑原理

K-means通常分为三个步骤:

1.选择初始质心,随机选择k个样本作为初始质心。

2.将每个样本分配到距离其最近的质心,作为一个簇中的数据。

3.通过取分配给每个先前质心的所有样本的平均值来创建新质心。

计算新旧质心之间的差异,算法重复最后两个步骤,直到质心不再发生明显的变化,或者达到预定的迭代次数。

参数说明

IN端口-输入参数

参数名

参数描述

是否必填

输入数据类型

数据源类型

特征变量

配置模型特征变量。

整数或浮点数

说明

若存在非数值数据,则会抛出异常。

  • CSV组件。

  • IGateInOffline组件。

  • 平台上其他数据处理组件。

  • 按照平台规范开发的自定义组件。

OUT端口-输出参数

参数名

参数描述

输出数据类型

输出

聚类完成后输出具体的聚类类别“label”。

整型

算法参数

参数名

参数描述

是否必填

参数默认值

参数范围

簇的数量

要形成的簇的数量以及要生成的质心的数量。

8

[2,99999999]

运行次数

k均值算法将在不同质心种子下运行的次数n,最终结果将是n次连续运行的最佳输出。

说明

由于K均值聚类是结果受初始值影响的局部最优的迭代算法,因此需要多跑几次以选择一个较好的聚类效果,默认是10,一般不需要改。如果你的k值较大,则可以适当增大这个值。

10

[1,99999999]

最大迭代次数

单次运行的k均值算法的最大迭代次数。

说明

如果是凸数据集的话可以不管这个值,如果数据集不是凸的,可能很难收敛,此时可以指定最大的迭代次数让算法可以及时退出循环。

300

[1,99999999]

算法

  • 自动:根据数据值是否是稀疏的,来决定选择“K-Means”或“elkan K-Means”。建议直接使用此默认选项。

  • elkan K-Means:数据值稠密可以选择此算法。

  • K-Means:数据值稀疏可以选择此算法。

自动

  • 自动

  • K-Means算法

  • elkan K-Means算法

其他参数

参数名

参数描述

模型结果

模型结果展示模型聚类效果以及聚类结果,其中“CH分数(即Calinski-Harabasz指标)”和“轮廓系数”反应聚类效果,值越大,说明聚类效果越好。