阿里云首页 工业大脑开放平台

偏最小二乘回归

功能说明

偏最小二乘回归是通过投影分别将预测变量和观测变量投影到一个新空间,来寻找一个线性回归模型。偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用偏小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。

计算逻辑原理

偏最小二乘用于查找两个矩阵(XY)的基本关系,即一个在这两个空间对协方差结构建模的隐变量方法。偏最小二乘模型将试图找到X空间的多维方向来解释Y空间方差最大的多维方向。偏最小二乘回归特别适合当预测矩阵比观测的有更多变量,以及X的值中有多重共线性的时候。

参数说明

IN端口

参数名

参数描述

是否必填

输入数据类型

数据源类型

特征变量

配置模型特征变量。

整数或浮点数

说明

若存在非数值数据,则会抛出异常

  • csv组件

  • igateoffline组件

  • 平台上其他数据处理组件

  • 按照平台组件开发的自定义组件

目标变量

配置模型目标变量,目标变量可以有多个。

整数或浮点数

说明

若存在非数值数据,则会抛出异常

  • csv组件

  • igateoffline组件

  • 平台上其他数据处理组件

  • 按照平台组件开发的自定义组件

算法参数

参数名

参数描述

是否必填

参数默认值

参数范围

主成分数量

要保留的主成分数量,需要同时小于等于样本数,特征变量个数和目标变量个数。

2

[1,99999999]

是否归一化

是否对训练数据做归一化处理。

最大迭代次数

奇异值分解乘幂法的最大迭代次数。

500

[1,10000]

迭代截止条件

乘幂法迭代截止条件中使用的收敛准则公差。

1e-06

[0,1]

测试集比例

测试模型的数据占总输入数据的比例,用于计算模型的评价指标,默认0.2。

0.2

[0,1]

测试集生成方式

随机:按比例随机从输入数据中截取n条数据作为测试集;

头部:按比例将输入数据前n条数据作为测试集;

尾部:按比例将输入数据后n条数据作为测试集。剩余部分作为训练集。

随机

  • 随机:random

  • 头部:head

  • 尾部:end

其他参数

参数名

参数描述

模型结果

可以查看建模成功后的模型评价结果或发布模型。