工况识别-训练

本文为您介绍工况识别-训练组件。

计算逻辑原理

使用聚类、降维等无监督学习方法对工业数据进行分析,对不同工况数据分别建模。

参数说明

IN端口-输入参数

参数名

参数描述

是否必填

输入数据类型

数据源类型

特征变量

用于建立训练模型的特征变量。

整数或浮点数

(说明:若存在非数值数据,则会抛出异常)

  • CSV组件。

  • IgateOffline组件。

  • 平台上其他数据处理组件。

  • 按照平台规范开发的自定义组件。

其他参数

参数名

参数描述

是否必填

参数默认值

参数范围

识别方式

工况识别的方式。智能:算法将根据数据情况自动选择合适的方法进行工况类别识别;自定义:需要用户自行选择具体的降维、聚类等方法进行工况类别识别。

智能

  • 智能

  • 自定义

识别方式:自定义

参数名

参数描述

是否必填

参数默认值

参数范围

是否降维

选择是否对数据做降维处理。

聚类方法

选择具体的聚类算法。

k均值聚类

  • k均值聚类

  • 均值漂移聚类

  • 高斯混合聚类

是否降维:是

参数名

参数描述

是否必填

参数默认值

参数范围

降维方法

选择具体的降维算法。

主成分分析

  • 主成分分析

  • 慢特征分析

  • 局部投影保留

保留维度

降维后的特征维度数量。默认为0,算法会自动寻找最佳保留维度。需要同时小于等于样本数和特征变量个数。

0

[0,99999999]

聚类方法:K均值聚类

参数名

参数描述

是否必填

参数默认值

参数范围

是否批量

数据量多时可采用批量处理,可以提升处理速度。

是否批量:是

参数名

参数描述

是否必填

参数默认值

参数范围

批量大小

批量处理的数据量大小。即用来跑Mini Batch KMeans算法的采样集的大小,默认是100。如果发现数据集的类别较多或者噪音点较多,需要增加这个值以达到较好的聚类效果。

100

[10,99999999]

小批量控制

根据不会对平滑惯性产生改进的连续小批量控制提前停止。即连续多少个Mini Batch没有改善聚类效果的话,就停止算法, 和最大迭代次数一样是为了控制算法运行时间的。默认是10,一般用默认值就足够了。

10

[1,100]

聚类方法:k均值聚类、均值漂移聚类、高斯混合聚类

参数名

参数描述

是否必填

参数默认值

参数范围

聚类数下限

聚类类别数量下限。用于寻找最优聚类类别数。

2

[2,15]

聚类数上限

聚类类别数量上限。用于寻找最优聚类类别数。

5

[2,15]

聚类方法:k均值聚类、高斯混合聚类

参数名

参数描述

是否必填

参数默认值

参数范围

最大迭代次数

单次运行的聚类算法的最大迭代次数。

300

[10,1000]

聚类方法:均值漂移聚类

参数名

参数描述

是否必填

参数默认值

参数范围

算法加速

指定最少的种子数目。为了加速算法,只接受那些至少有min_bin_freq 点的 bin 作为种子。

1

[1,100]

输出参数

参数名

参数描述

模型结果

查看模型结果或发布模型。展示的结果包括工况数以及工况识别效果。其中“CH分数(即Calinski-Harabasz指标)”和“轮廓系数”反映工况识别效果,值越大,说明识别效果越好,轮廓系数取值范围为[-1,1]。