Lasso回归预测组件支持稀疏、稠密两种数据格式。您可以使用该组件做一些数值型变量的预测,比如贷款额度预测、温度预测等。本文为您介绍Lasso回归预测组件的配置方法。

使用限制

支持的计算引擎为MaxCompute和Flink。

算法原理

Lasso回归算法通过构造一个惩罚函数,得到一个较为精炼的模型。使得它压缩一些回归系数,即强制系数绝对值之和小于某个固定值,同时设定一些回归系数为0。因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。

可视化配置组件参数

  • 输入桩
    输入桩(从左到右) 数据类型 建议上游组件 是否必选
    预测输入模型 Lasso回归训练
    预测输入数据
  • 组件参数
    页签 参数 描述
    字段设置 算法保留列名 选择算法保留列的名称。
    向量列名 向量列对应的列名称。
    参数设置 预测结果列名 预测结果列的列名称。
    组件多线程线程个数 组件多线程的线程个数,默认为1。
    执行调优 节点个数 单个节点内存大小参数配对使用。取值为[1, 9999]的正整数。
    单个节点内存大小,单位M 取值范围为1024 MB~64*1024 MB。

通过代码方式配置组件

您可以将以下代码复制到PyAlink脚本组件中,使PyAlink脚本组件实现与该组件相同的功能。
from pyalink.alink import *

def main(sources, sinks, parameter):
    model = sources[0]
    batchData = sources[1]

    predictor = LassoRegPredictBatchOp()\
        .setPredictionCol("pred")
    result = predictor.linkFrom(model, batchData)
    result.link(sinks[0])
    BatchOperator.execute()