缺失值填充批预测

组件实现缺失值填充功能,填充策略支持最大值、最小值、均值和指定数值四种。

使用限制

支持的计算引擎为MaxComputeFlink。

算法简介

数据缺失值填充处理,批式预测组件。运行时需要指定缺失值模型,由缺失值填充训练组件产生。缺失值填充的4种策略,即最大值、最小值、均值、指定数值,在生成缺失值模型时指定。

可视化配置参数

【输入桩配置】

输入桩(从左到右)

限制数据类型

建议上游组件

是否必选

预测输入模型

缺失值填充训练

预测输入数据

数值类型

读数据表

CSV文件

【右侧参数表单】

页签

参数

描述

参数设置

输出结果列列名数组

新生成的列名,设置的列名个数需要与缺失值训练时选择的列数相同,不设置时新生成列默认替换原始列。

组件多线程线程个数

组件多线程线程个数,默认1。

执行调优

节点个数

与单个节点内存大小参数配对使用。取值为[1, 9999]的正整数。

单个节点内存大小,单位M

取值范围为1024 MB~64*1024 MB。

【输出桩说明】

输出桩(从左到右)

存储位置

下游建议组件

模型类型

输出结果

不需要配置

具体示例

您可以将以下代码复制到PyAlink脚本组件中,使PyAlink脚本组件实现与该组件相同的功能。

from pyalink.alink import *

def main(sources, sinks, parameter):
    model = sources[0]
    data = sources[1]
    predictOp = ImputerPredictBatchOp()
    result = predictOp.linkFrom(model, data)
    result.link(sinks[0])
		BatchOperator.execute()