梯度提升回归树

本文为您介绍梯度提升回归树组件。

功能说明

梯度提升回归树GBRT(Gradient Boosting Regression Tree)是利用树模型进行回归的算法模型。梯度提升采用连续的方式构造树,每棵树都试图纠正前一棵树的错误。默认情况下,梯度提升回归树中没有随机化,而是用到了强预剪枝。梯度提升树通常使用深度很小的数,这样模型占用内存更少,预测速度也更快。

计算逻辑原理

GBRT是一种迭代的回归树算法,由多棵回归树组成,合并许多弱学习器,每棵树只能对部分数据做出好的预测,所有树的结论累加起来得到最终结果。因为添加的树越来越多,可以不断迭代提高性能,所以GBRT是一种泛化能力较强的算法。

参数说明

IN端口

参数名

参数描述

是否必填

输入数据类型

数据源类型

特征变量

配置模型特征列

整数或浮点数

说明

若存在非数值数据,则会抛出异常。

  • CSV组件。

  • IGateInOffline组件。

  • 平台上其他数据处理组件。

  • 按照平台规范开发的自定义组件。

目标变量

配置模型目标列

整数或浮点数

说明

若存在非数值数据,则会抛出异常。

  • CSV组件。

  • IGateInOffline组件。

  • 平台上其他数据处理组件。

  • 按照平台规范开发的自定义组件。

模型端口

参数名

参数描述

输出参数

输出数据类型

模型

输出算法训练后模型存储的地址。

模型地址

字符

算法参数

参数名

参数描述

是否必填

参数默认值

参数范围

损失函数

损失函数类型。

最小二乘回归

  • 最小二乘回归

  • 最小绝对偏差

  • Huber

  • 分位数回归

学习率

模型的学习效率。

0.1

[0,1]

树数量

要执行的提升阶段数。梯度提升对于过度拟合具有相当强的鲁棒性,因此大量提升通常会带来更好的性能。

10

[0,10000]

采样率

用于拟合各个基础学习者的样本比例。

1.0

[0,1]

特征分裂指标

衡量分割质量的功能。

弗里德曼均方误差

  • 弗里德曼均方误差

  • 均方误差

  • 平均绝对误差

最小分割样本下限

树生长过程中早停止的阈值。如果当前节点的不纯度高于阈值,节点将分裂。

2

[1,10000]

叶节点所含最少样本数

样本数少于该数据不会分支。

1

[1,10000]

节点最小权重系数

叶子节点中样本的最小权重系数。

0

[0, 99999999]

最大深度

各个回归估计量的最大深度。最大深度限制了树中节点的数量。

3

[1,100]

分位数

如果噪音点较多,可以适当降低这个分位数的值,当损失函数为Huber或分位数回归时,才需要配置。

0.9

[0,1]

测试集比例

测试模型的数据占总输入数据的比例,用于计算模型的评价指标,默认0.2。

0.2

[0,1]

测试集生成方式

随机:按比例随机从输入数据中截取n条数据作为测试集;

头部:按比例将输入数据前n条数据作为测试集;

尾部:按比例将输入数据后n条数据作为测试集。剩余部分作为训练集。

随机

  • 随机

  • 头部

  • 尾部

特征重要性展示特征数

模型特征重要性展示时,实际展示的特征个数。只展示最重要的n个特征,默认10。若设置的展示数小于实际特征数,则展示实际特征数。

10

[1,20]

其他参数

参数名

参数描述

模型结果

可以查看建模成功后的模型评价结果。包含:

  • R2(决定系数):该指标解释回归模型的方差得分,越接近于1说明自变量越能解释因变量的方差变化。

  • MSE(均方误差):该指标计算的是拟合数据和原始数据对应样本点的误差的平方和的均值,其值越小说明拟合效果越好。

  • RMSE(均方根误差):也叫回归系统的拟合标准差,是MSE的平方根。

  • MAE(平均绝对误差):用于评估预测结果和真实数据集的接近程度,其值越小说明拟合效果越好。

  • MAPE(平均绝对百分误差):将MAE的绝对值转化为相对值,其值越小说明拟合效果越好。

  • MAD(平均误差):其值越小说明拟合效果越好。