本文为您介绍K均值聚类组件。
功能说明
K均值聚类是一种矢量量化方法,在数据挖掘的聚类分析中很流行。K均值聚类通过试图分离 n 个相等方差组的样本来聚集数据,用最小化或者簇内和平方的标准。 该算法需要指定簇的数量,它可以很好地扩展到大量样本,并已经被广泛应用于许多不同的领域。
计算逻辑原理
K-means通常分为三个步骤:
1.选择初始质心,随机选择k个样本作为初始质心。
2.将每个样本分配到距离其最近的质心,作为一个簇中的数据。
3.通过取分配给每个先前质心的所有样本的平均值来创建新质心。
计算新旧质心之间的差异,算法重复最后两个步骤,直到质心不再发生明显的变化,或者达到预定的迭代次数。
参数说明
IN端口-输入参数
参数名 | 参数描述 | 是否必填 | 输入数据类型 | 数据源类型 |
特征变量 | 配置模型特征变量。 | 是 | 整数或浮点数 说明 若存在非数值数据,则会抛出异常。 |
|
OUT端口-输出参数
参数名 | 参数描述 | 输出数据类型 |
输出 | 聚类完成后输出具体的聚类类别“label”。 | 整型 |
算法参数
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
簇的数量 | 要形成的簇的数量以及要生成的质心的数量。 | 是 | 8 | [2,99999999] |
运行次数 | k均值算法将在不同质心种子下运行的次数n,最终结果将是n次连续运行的最佳输出。 说明 由于K均值聚类是结果受初始值影响的局部最优的迭代算法,因此需要多跑几次以选择一个较好的聚类效果,默认是10,一般不需要改。如果你的k值较大,则可以适当增大这个值。 | 是 | 10 | [1,99999999] |
最大迭代次数 | 单次运行的k均值算法的最大迭代次数。 说明 如果是凸数据集的话可以不管这个值,如果数据集不是凸的,可能很难收敛,此时可以指定最大的迭代次数让算法可以及时退出循环。 | 是 | 300 | [1,99999999] |
算法 |
| 是 | 自动 |
|
其他参数
参数名 | 参数描述 |
模型结果 | 模型结果展示模型聚类效果以及聚类结果,其中“CH分数(即Calinski-Harabasz指标)”和“轮廓系数”反应聚类效果,值越大,说明聚类效果越好。 |