文档

相关性分析

更新时间:

相关性分析组件支持对历史数据进行相关性分析,计算出指定变量之间的相关系数,并绘制出相关图表。相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。

计算逻辑原理

  • 多变量与多变量:分别计算“数据列”中每两个变量之间的相关系数,并用矩阵热力图展示相关性分析结果。

  • 单变量与多变量:分别计算“基础数据列”中的变量与“数据列”中的变量之间的相关系数,并用柱状图展示相关性分析结果。

参数说明

IN端口-输入参数

参数名

参数描述

是否必填

输入数据类型

数据源类型

待分析变量

需要进行相关性分析的变量。

整数或浮点数

说明:若存在非数值数据,则会抛出异常。

  • CSV组件

  • IGateInOffline组件

  • 平台上其他数据处理组件

  • 按照平台规范开发的自定义组件

基准变量

分析方案为“单变量与多变量”的情况时,组件会分析基准变量与每一个待分析变量之间的相关性。

当分析方案为“单变量与多变量”时,才需要配置。

整数或浮点数

说明:若存在非数值数据,则会抛出异常。

  • CSV组件

  • IGateInOffline组件

  • 平台上其他数据处理组件

  • 按照平台规范开发的自定义组件

其他参数

参数名

参数描述

是否必填

参数默认值

参数范围

分析方案

  • 多变量与多变量:分析每个变量与其他所有变量之间的相关性。

  • 单变量与多变量:分析指定的某个变量与其他变量之间的相关性。

多变量与多变量

  • 多变量与多变量

  • 单变量与多变量

相关系数方法

选择相关系数计算的方法。

  • 皮尔逊相关系数:用于衡量两个数据集是否在一条线上面,即针对线性数据的相关系数计算,针对非线性数据便会有误差。

  • 肯德尔相关系数:用于反映分类变量的相关性,即针对无序序列的相关系数计算,非正太分布的数据。

  • 斯皮尔曼相关系数:用于非线性的、非正太分布的数据的相关系数计算。

皮尔逊相关系数

  • 皮尔逊相关系数

  • 肯德尔相关系数

  • 斯皮尔曼相关系数

配色方案

选择相关性矩阵图配色方案。不同色系的具体样式可查看下方示例。

当分析方案为“多变量与多变量”时,才需要配置。

默认

  • 默认

  • Greys

  • PuRd

  • RdPu

  • OrRd

  • Reds

  • YlOrRd

  • BuGn

  • Greens

  • YlGn

  • Blues

  • PuBu

  • PuBuGn

  • RdBu_r

  • RdYlGn_r

配色方案图例

image

Greys

PuRd

RdPu

OrRd

Reds

YlOrRd

image

BuGn

Greens

YlGn

Blues

PuBu

PuBuGn

image

RdBu_r

RdYlGn_r