在数据预处理中,为了降低不同列的数据量级和范围大小带来的影响,需要将各列数据进行标准化操作。标准化之后,不同列的数据都会被限定到同一个数据范围内。标准化组件假设数据符合正态分布。
使用限制
支持的计算引擎为MaxCompute和Flink。
算法简介
标准化是假设数据符合正态分布,根据均值和方差计算对应数值的过程。
可视化配置参数
【输入桩配置】
输入桩(从左到右) | 限制数据类型 | 建议上游组件 | 是否必选 |
预测输入模型 | 无 | 是 | |
预测输入数据 | 数值类型 | 是 |
【右侧参数表单】
页签 | 参数 | 描述 |
参数设置 | 输出结果列列名数组 | 可选,默认情况下预测结果列替换原始输入列内容,填写时需要与训练时选择的列数保持一致,不同列用半角逗号隔开。 |
组件多线程线程个数 | 默认1。 | |
执行调优 | 节点个数 | 与单个节点内存大小参数配对使用。取值为[1, 9999]的正整数。 |
单个节点内存大小,单位M | 取值范围为1024 MB~64*1024 MB。 |
【输出桩说明】
输出桩(从左到右) | 存储位置 | 下游建议组件 | 模型类型 |
输出结果 | 不需要配置 | 无 | 无 |
具体示例
您可以将以下代码复制到PyAlink脚本组件中,使PyAlink脚本组件实现与该组件相同的功能。
from pyalink.alink import *
def main(sources, sinks, parameter):
model = sources[0]
batchData = sources[1]
predictor = StandardScalerPredictBatchOp()
result = predictor.linkFrom(model, batchData)
result.link(sinks[0])
BatchOperator.execute()
文档内容是否对您有帮助?