组件实现缺失值填充功能,填充策略支持最大值、最小值、均值和指定数值四种。
使用限制
支持的计算引擎为MaxCompute和Flink。
算法简介
数据缺失值模型训练,缺失值填充支持4种策略,最大值、最小值、均值、指定数值。当策略为指定数值时,需要设置参数填充缺失值。
可视化配置参数
【输入桩配置】
输入桩(从左到右) | 限制数据类型 | 建议上游组件 | 是否必选 |
数据 | 存储在MaxCompute或OSS的结构化数据 | 是 |
【右侧参数表单】
页签 | 参数 | 描述 |
字段设置 | 选择的列名 | 选择需要填充缺失值的列名,仅支持数值类型。 |
参数设置 | 填充缺失值 | 当缺失值填充规则配置为VALUE时,需要配置该参数。 自定义的填充值,将缺失值替换为您设置的缺失值。 |
缺失值填充规则 | 取值如下:
| |
执行调优 | 节点个数 | 与单个节点内存大小参数配对使用。取值为[1, 9999]的正整数 |
单个节点内存大小,单位M | 取值范围为1024 MB~64*1024 MB |
【输出桩说明】
输出桩(从左到右) | 下游建议组件 | 模型类型 |
模型 | 缺失值填充模型 |
具体示例
您可以将以下代码复制到PyAlink脚本组件中,使PyAlink脚本组件实现与该组件相同的功能。
from pyalink.alink import *
def main(sources, sinks, parameter):
data = sources[0]
selectedColNames = ["col2", "col3"]
trainOp = ImputerTrainBatchOp()\
.setSelectedCols(selectedColNames)
result = trainOp.linkFrom(data)
result.link(sinks[0])
BatchOperator.execute()
文档内容是否对您有帮助?