本文为您介绍工况识别-训练组件。
计算逻辑原理
使用聚类、降维等无监督学习方法对工业数据进行分析,对不同工况数据分别建模。
参数说明
IN端口-输入参数
参数名 | 参数描述 | 是否必填 | 输入数据类型 | 数据源类型 |
特征变量 | 用于建立训练模型的特征变量。 | 是 | 整数或浮点数 (说明:若存在非数值数据,则会抛出异常) |
|
其他参数
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
识别方式 | 工况识别的方式。智能:算法将根据数据情况自动选择合适的方法进行工况类别识别;自定义:需要用户自行选择具体的降维、聚类等方法进行工况类别识别。 | 是 | 智能 |
|
识别方式:自定义
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
是否降维 | 选择是否对数据做降维处理。 | 否 | 是 |
|
聚类方法 | 选择具体的聚类算法。 | 否 | k均值聚类 |
|
是否降维:是
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
降维方法 | 选择具体的降维算法。 | 否 | 主成分分析 |
|
保留维度 | 降维后的特征维度数量。默认为0,算法会自动寻找最佳保留维度。需要同时小于等于样本数和特征变量个数。 | 否 | 0 | [0,99999999] |
聚类方法:K均值聚类
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
是否批量 | 数据量多时可采用批量处理,可以提升处理速度。 | 否 | 否 |
|
是否批量:是
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
批量大小 | 批量处理的数据量大小。即用来跑Mini Batch KMeans算法的采样集的大小,默认是100。如果发现数据集的类别较多或者噪音点较多,需要增加这个值以达到较好的聚类效果。 | 否 | 100 | [10,99999999] |
小批量控制 | 根据不会对平滑惯性产生改进的连续小批量控制提前停止。即连续多少个Mini Batch没有改善聚类效果的话,就停止算法, 和最大迭代次数一样是为了控制算法运行时间的。默认是10,一般用默认值就足够了。 | 否 | 10 | [1,100] |
聚类方法:k均值聚类、均值漂移聚类、高斯混合聚类
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
聚类数下限 | 聚类类别数量下限。用于寻找最优聚类类别数。 | 否 | 2 | [2,15] |
聚类数上限 | 聚类类别数量上限。用于寻找最优聚类类别数。 | 否 | 5 | [2,15] |
聚类方法:k均值聚类、高斯混合聚类
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
最大迭代次数 | 单次运行的聚类算法的最大迭代次数。 | 否 | 300 | [10,1000] |
聚类方法:均值漂移聚类
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
算法加速 | 指定最少的种子数目。为了加速算法,只接受那些至少有min_bin_freq 点的 bin 作为种子。 | 否 | 1 | [1,100] |
输出参数
参数名 | 参数描述 |
模型结果 | 查看模型结果或发布模型。展示的结果包括工况数以及工况识别效果。其中“CH分数(即Calinski-Harabasz指标)”和“轮廓系数”反映工况识别效果,值越大,说明识别效果越好,轮廓系数取值范围为[-1,1]。 |