标准化训练

在数据预处理中,为了降低不同列的数据量级和范围大小带来的影响,需要将各列数据进行标准化操作。标准化之后,不同列的数据都会被限定到同一个数据范围内。标准化组件假设数据符合正态分布。

使用限制

支持的计算引擎为MaxComputeFlink。

算法简介

标准化是假设数据符合正态分布,根据均值和方差计算对应数值的过程,训练过程计算数据的均值和标准差。

可视化配置参数

【输入桩配置】

输入桩(从左到右)

限制数据类型

建议上游组件

是否必选

数据

数值类型

读数据表

CSV文件

【右侧参数表单】

页签

参数

描述

字段设置

选择的列名

需要处理的列名,可选择多个,只能选择数值类型。

参数设置

是否使用均值

是否使用均值,默认使用。

是否使用标准差

是否使用标准差,默认使用。

执行调优

节点个数

与单个节点内存大小参数配对使用。取值为[1, 9999]的正整数。

单个节点内存大小,单位M

取值范围为1024 MB~64*1024 MB。

【输出桩说明】

输出桩(从左到右)

存储位置

下游建议组件

模型类型

模型

不需要配置

标准化批预测

具体示例

您可以将以下代码复制到PyAlink脚本组件中,使PyAlink脚本组件实现与该组件相同的功能。

from pyalink.alink import *

def main(sources, sinks, parameter):
    data = sources[0]
    selectedColNames = ["col2", "col3"]
    modelop = StandardScalerTrainBatchOp()\
        .setSelectedCols(selectedColNames)
    result = modelop.linkFrom(data)
    result.link(sinks[0])
    BatchOperator.execute()