特征离散化

可用于对离线数据做离散化特征处理。

功能说明

特征离散化组件可用于对离线数据做离散化特征处理。数据离散化是指将连续的数据进行分段,使其变为一段段离散化的区间。在工业场景中,为了易于增减特征,模型更加稳定,会将连续特征离散化,并且离散化后的特征有很强的鲁棒性。

应用场景:例如:一组数据需做离散化处理,分段间隔为0.5,对数据【2.2, 2.9, 1, 1.4, 1.6, 2.7】做离散化处理后为【2.0, 3.0, 1.0, 1.5, 1.5, 2.5】

计算逻辑原理

特征离散化:有效的离散化能减小算法的时间和空间开销,提高系统对样本的分类聚类能力和抗噪声能力,并且可以有效的克服数据中隐藏的缺陷,使模型结果更加稳定。

参数说明

IN端口

参数名

参数描述

是否必填

输入数据类型

数据源类型

待离散化变量

需要做离散化处理的变量,输出离散化处理后的数据。

整数或浮点数

说明

若存在非数值数据,则会置为NaN

  • CSV组件

  • IGateInOffline组件

  • 平台上其他数据处理组件

  • 按照平台规范开发的自定义组件

OUT端口

参数名

参数描述

是否必填

输出数据类型

输出

输出参数包含待离散化变量中配置的输入参数。

浮点数

其他参数

参数名

参数描述

是否必填

参数默认值

参数范围

分段间隔

特征离散化处理的分段间隔。例如:分段间隔为2时,离散化处理会将特征的数值处理成固定步长为2的数据。

1.0

(0,99999999]

阿里云首页 工业大脑开放平台 相关技术圈