数据归一化

本文为您介绍数据归一化组件。

功能说明

数据归一化对指定的变量进行归一化处理。在很多项目中,数据来源不同,量纲及量纲单位不同,为了让它们具备可比性,需要采用标准化方法消除由此带来的偏差。归一化的方法包括:min-max和z-score两种方法。

计算逻辑原理

  • min-max归一化:将数据进行一次线性变换,将数据映射到[0,1]区间。其公式为:

image.png

若x的值相同,则归一化输出0.5。

  • Z-score归一化:经过处理后的数据符合正态分布。其公式为:

image.png

若x的值相同,则归一化输出0。

其中x是原始数据,min是数据的最小值,max是数据的最大值,mean是数据的平均值,std是数据的标准差,x'是归一化后的值。

参数说明

IN端口-输入参数

参数名

参数描

是否必填

输入数据类型

数据源类型

归一化变量

配置需要归一化处理的变量。

整数或浮点数

说明

若存在非数值数据,则会置为NaN

  • CSV组件

  • IGateInOffline组件

  • 平台上其他数据处理组件

  • 按照平台规范开发的自定义组件

OUT端口-输出参数

参数名

参数描述

输出数据类型

OUT1

输出每个变量的归一化结果,参数名和输入相同。

浮点数

OUT2

输出每个变量的归一化系数,参数名和输入相同(最小值:min,最大值:max,平均值:mean,标准差:std)。

浮点数

其他参数

参数名

参数描述

是否必填

参数默认值

参数范围

归一化方法

归一化处理方法。

  • min-max:若变量列最大值max大于变量列最小值min,则输出(x- min) / (max- min);若max=min,则输出0.5。

  • z-score:若变量列标准差std不等于0,则输出(x-mean) / std;若std等于0,则输出0。

min-max

  • min-max

  • z-score