标准化批预测

标准化批预测是一种用于数据预处理的机器学习算法,旨在对批量数据进行标准化处理,以降低不同列数据量级和范围的影响。该算法假设数据符合正态分布,通过均值和方差对数据进行标准化,将不同列的数据映射到相同的范围内,从而提高模型训练和预测的稳定性和准确性。标准化批预测在处理大规模数据集时尤为有效,能够确保一致的数据分布。

使用限制

支持的计算引擎为MaxComputeFlink。

可视化配置参数

输入桩

输入桩(从左到右)

限制数据类型

建议上游组件

是否必选

预测输入模型

标准化训练

预测输入数据

数值类型

读数据表

CSV文件

参数配置

页签

参数

描述

参数设置

输出结果列列名数组

可选,默认情况下预测结果列替换原始输入列内容,填写时需要与训练时选择的列数保持一致,不同列用半角逗号隔开。

组件多线程线程个数

默认1。

执行调优

节点个数

与单个节点内存大小参数配对使用。取值为[1, 9999]的正整数。

单个节点内存大小,单位M

取值范围为1024 MB~64*1024 MB。

输出桩

输出桩(从左到右)

存储位置

下游建议组件

模型类型

输出结果

不需要配置

具体示例

您可以将以下代码复制到PyAlink脚本组件中,使PyAlink脚本组件实现与该组件相同的功能。

from pyalink.alink import *

def main(sources, sinks, parameter):
    model = sources[0]
    batchData = sources[1]
    predictor = StandardScalerPredictBatchOp()
    result = predictor.linkFrom(model, batchData)
    result.link(sinks[0])
    BatchOperator.execute()