阿里云首页 工业大脑开放平台

K均值聚类

本文为您介绍算法组件中的K均值聚类组件。

功能说明

K均值聚类是一种矢量量化方法,在数据挖掘的聚类分析中很流行。K均值聚类通过试图分离 n 个相等方差组的样本来聚集数据,用最小化或者簇内和平方的标准。 该算法需要指定簇的数量,它可以很好地扩展到大量样本,并已经被广泛应用于许多不同领域的应用领域。

计算逻辑原理

K-means 通常分为三个步骤。第一步选择初始质心,最基本的方法是选择k 来自数据集的样本 X. 初始化后,K-means 包括在另外两个步骤之间循环。第一步将每个样本分配到最近的质心。第二步通过取分配给每个先前质心的所有样本的平均值来创建新质心。计算新旧质心之间的差异,算法重复最后两个步骤,直到该值小于阈值。换句话说,它重复直到质心没有明显移动。

参数说明

IN端口

参数名

参数描述

是否必填

输入数据类型

数据源类型

特征变量

配置模型特征变量。

整数或浮点数

说明

若存在非数值数据,则会抛出异常

  • csv组件

  • igateoffline组件

  • 平台上其他数据处理组件

  • 按照平台组件开发的自定义组件

算法参数

参数名

参数描述

是否必填

参数默认值

参数范围

簇的数量

要形成的簇的数量以及要生成的质心的数量。

8

[1,99999999]

运行次数

k均值算法将在不同质心种子下运行的次数n,最终结果将是n次连续运行的最佳输出。

说明

由于K均值聚类是结果受初始值影响的局部最优的迭代算法,因此需要多跑几次以选择一个较好的聚类效果,默认是10,一般不需要改。如果你的k值较大,则可以适当增大这个值。

10

[1,99999999]

最大迭代次数

单次运行的k均值算法的最大迭代次数。

说明

如果是凸数据集的话可以不管这个值,如果数据集不是凸的,可能很难收敛,此时可以指定最大的迭代次数让算法可以及时退出循环。

300

[1,99999999]

算法

  • 自动:根据数据值是否是稀疏的,来决定选择“K-Means”或“elkan K-Means”。建议直接使用此默认选项。

  • elkan K-Means:数据值稠密可以选择此算法。

  • K-Means:数据值稀疏可以选择此算法。

自动

  • 自动

  • K-Means算法

  • elkan K-Means算法

其他参数

参数名

参数描述

模型结果

模型结果展示模型聚类效果以及聚类结果,其中“CH分数(即Calinski-Harabasz指标)”和“轮廓系数”反应聚类效果,值越大,说明聚类效果越好。