工况识别-训练

工况识别-训练组件通过分析工业场景数据,用机器学习方法训练工况识别模型。

计算逻辑原理

使用聚类、降维等无监督学习方法对工业数据进行分析,对不同工况数据分别建模。

参数说明

IN端口-输入参数

参数名

参数描述

是否必填

输入数据类型

数据源类型

特征变量

用于建立训练模型的特征变量。

整数或浮点数

(说明:若存在非数值数据,则会抛出异常)

  • csv组件

  • igateoffline组件

  • 平台上其他数据处理组件

  • 按照平台组件开发的自定义组件

其他参数

参数名

参数描述

是否必填

参数默认值

参数范围

识别方式

工况识别的方式。智能:算法将根据数据情况自动选择合适的方法进行工况类别识别;自定义:需要用户自行选择具体的降维、聚类等方法进行工况类别识别。

smart

  • 智能:smart

  • 自定义:custom

是否降维

选择是否对数据做降维处理。

在‘识别方式’为‘自定义’时才需要配置

1

  • 是:1

  • 否:0

降维方法

在‘是否降维’为‘1’时才需要配置

pca

  • 主成分分析:pca

  • 慢特征分析:sfa

  • 局部投影保留:lpp

保留维度

降维后的特征维度数量。默认为0,算法会自动寻找最佳保留维度。需要同时小于等于样本数和特征变量个数。

在‘是否降维’为‘1’时才需要配置

0

[0,99999999]

聚类方法

在‘识别方式’为‘自定义’时才需要配置

KMeans

  • k均值聚类:KMeans

  • 均值漂移聚类:MeanShift

  • 高斯混合聚类:GMM

是否批量

数据量多时可采用批量处理,可以提升处理速度。

在‘聚类方法’为‘

KMeans’时才需要配置

0

  • 是:1

  • 否:0

批量大小

批量处理的数据量大小。即用来跑Mini Batch KMeans算法的采样集的大小,默认是100。如果发现数据集的类别较多或者噪音点较多,需要增加这个值以达到较好的聚类效果。

在‘是否降维’为‘1’时才需要配置

100

[10,99999999]

小批量控制

根据不会对平滑惯性产生改进的连续小批量控制提前停止。即连续多少个Mini Batch没有改善聚类效果的话,就停止算法, 和最大迭代次数一样是为了控制算法运行时间的。默认是10,一般用默认值就足够了。

在‘是否降维’为‘1’时才需要配置

10

[1,100]

聚类数下限

聚类类别数量下限。用于寻找最优聚类类别数。

在‘聚类方法’为‘

KMeans’、‘MeanShift’、‘GMM’时才需要配置

2

[2,15]

聚类数上限

聚类类别数量上限。用于寻找最优聚类类别数。

在‘聚类方法’为‘

KMeans’、‘MeanShift’、‘GMM’时才需要配置

5

[2,15]

最大迭代次数

单次运行的聚类算法的最大迭代次数。

在‘聚类方法’为‘

KMeans’、‘GMM’时才需要配置

300

[10,1000]

算法加速

指定最少的种子数目。为了加速算法,只接受那些至少有min_bin_freq 点的 bin 作为种子。

在‘聚类方法’为‘MeanShift’时才需要配置

1

[1,100]

输出参数

参数名

参数描述

模型结果

查看模型结果或发布模型。展示的结果包括工况数以及工况识别效果。其中“CH分数(即Calinski-Harabasz指标)”和“轮廓系数”反应工况识别效果,值越大,说明识别效果越好,轮廓系数取值范围为[-1,1]。

阿里云首页 工业大脑开放平台 相关技术圈