岭回归预测

岭回归预测组件支持稀疏、稠密两种数据格式。您可以使用岭回归预测组件做数值型变量的预测,包括房价预测、销售量预测、湿度预测等。本文为您介绍岭回归预测组件的配置方法。

使用限制

支持的计算引擎为MaxCompute、FlinkDLC。

算法原理

岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。

可视化配置组件参数

  • 输入桩

    输入桩(从左到右)

    数据类型

    建议上游组件

    是否必选

    预测输入模型

    岭回归训练

    预测输入数据

  • 组件参数

    页签

    参数

    描述

    字段设置

    算法保留列名

    选择算法保留列的名称。

    向量列名

    向量列对应的列名称。

    参数设置

    预测结果列名

    预测结果列的列名称。

    组件多线程线程个数

    组件多线程的线程个数,默认为1。

    执行调优

    节点个数

    单个节点内存大小参数配对使用。取值为[1, 9999]的正整数。

    单个节点内存大小,单位M

    取值范围为1024 MB~64*1024 MB。

通过代码方式配置组件

您可以将以下代码复制到PyAlink脚本组件中,使PyAlink脚本组件实现与该组件相同的功能。

from pyalink.alink import *

def main(sources, sinks, parameter):
    model = sources[0]
    batchData = sources[1]

    predictor = RidgeRegPredictBatchOp()\
        .setPredictionCol("pred")
    result = predictor.linkFrom(model, batchData)
    result.link(sinks[0])
    BatchOperator.execute()