缺失值填充训练

组件实现缺失值填充功能,填充策略支持最大值、最小值、均值和指定数值四种。

使用限制

支持的计算引擎为MaxComputeFlink。

算法简介

数据缺失值模型训练,缺失值填充支持4种策略,最大值、最小值、均值、指定数值。当策略为指定数值时,需要设置参数填充缺失值。

可视化配置参数

【输入桩配置】

输入桩(从左到右)

限制数据类型

建议上游组件

是否必选

数据

存储在MaxComputeOSS的结构化数据

读数据表

OSS数据

【右侧参数表单】

页签

参数

描述

字段设置

选择的列名

选择需要填充缺失值的列名,仅支持数值类型。

参数设置

填充缺失值

当缺失值填充规则配置为VALUE时,需要配置该参数。 自定义的填充值,将缺失值替换为您设置的缺失值。

缺失值填充规则

取值如下:

  • MEAN(默认值),均值。

  • MIN,最小值。

  • MAX,最大值。

  • VALUE,固定填充值。

执行调优

节点个数

与单个节点内存大小参数配对使用。取值为[1, 9999]的正整数

单个节点内存大小,单位M

取值范围为1024 MB~64*1024 MB

【输出桩说明】

输出桩(从左到右)

下游建议组件

模型类型

模型

缺失值填充批预测

缺失值填充模型

具体示例

您可以将以下代码复制到PyAlink脚本组件中,使PyAlink脚本组件实现与该组件相同的功能。

from pyalink.alink import *

def main(sources, sinks, parameter):
    data = sources[0]
    selectedColNames = ["col2", "col3"]
    trainOp = ImputerTrainBatchOp()\
               .setSelectedCols(selectedColNames)
    result = trainOp.linkFrom(data)
    result.link(sinks[0])
		BatchOperator.execute()