特征离散化
可用于对离线数据做离散化特征处理。
功能说明
特征离散化组件可用于对离线数据做离散化特征处理。数据离散化是指将连续的数据进行分段,使其变为一段段离散化的区间。在工业场景中,为了易于增减特征,模型更加稳定,会将连续特征离散化,并且离散化后的特征有很强的鲁棒性。
应用场景:例如:一组数据需做离散化处理,分段间隔为0.5,对数据【2.2, 2.9, 1, 1.4, 1.6, 2.7】做离散化处理后为【2.0, 3.0, 1.0, 1.5, 1.5, 2.5】
计算逻辑原理
特征离散化:有效的离散化能减小算法的时间和空间开销,提高系统对样本的分类聚类能力和抗噪声能力,并且可以有效的克服数据中隐藏的缺陷,使模型结果更加稳定。
参数说明
IN端口
参数名 | 参数描述 | 是否必填 | 输入数据类型 | 数据源类型 |
待离散化变量 | 需要做离散化处理的变量,输出离散化处理后的数据。 | 是 | 整数或浮点数 说明 若存在非数值数据,则会置为NaN |
|
OUT端口
参数名 | 参数描述 | 是否必填 | 输出数据类型 |
输出 | 输出参数包含待离散化变量中配置的输入参数。 | 否 | 浮点数 |
其他参数
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
分段间隔 | 特征离散化处理的分段间隔。例如:分段间隔为2时,离散化处理会将特征的数值处理成固定步长为2的数据。 | 是 | 1.0 | (0,99999999] |