本文为您介绍梯度提升回归树组件。
功能说明
梯度提升回归树GBRT(Gradient Boosting Regression Tree)是利用树模型进行回归的算法模型。梯度提升采用连续的方式构造树,每棵树都试图纠正前一棵树的错误。默认情况下,梯度提升回归树中没有随机化,而是用到了强预剪枝。梯度提升树通常使用深度很小的数,这样模型占用内存更少,预测速度也更快。
计算逻辑原理
GBRT是一种迭代的回归树算法,由多棵回归树组成,合并许多弱学习器,每棵树只能对部分数据做出好的预测,所有树的结论累加起来得到最终结果。因为添加的树越来越多,可以不断迭代提高性能,所以GBRT是一种泛化能力较强的算法。
参数说明
IN端口
参数名 | 参数描述 | 是否必填 | 输入数据类型 | 数据源类型 |
特征变量 | 配置模型特征列 | 是 | 整数或浮点数 说明 若存在非数值数据,则会抛出异常。 |
|
目标变量 | 配置模型目标列 | 是 | 整数或浮点数 说明 若存在非数值数据,则会抛出异常。 |
|
模型端口
参数名 | 参数描述 | 输出参数 | 输出数据类型 |
模型 | 输出算法训练后模型存储的地址。 | 模型地址 | 字符 |
算法参数
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
损失函数 | 损失函数类型。 | 否 | 最小二乘回归 |
|
学习率 | 模型的学习效率。 | 否 | 0.1 | [0,1] |
树数量 | 要执行的提升阶段数。梯度提升对于过度拟合具有相当强的鲁棒性,因此大量提升通常会带来更好的性能。 | 否 | 10 | [0,10000] |
采样率 | 用于拟合各个基础学习者的样本比例。 | 否 | 1.0 | [0,1] |
特征分裂指标 | 衡量分割质量的功能。 | 否 | 弗里德曼均方误差 |
|
最小分割样本下限 | 树生长过程中早停止的阈值。如果当前节点的不纯度高于阈值,节点将分裂。 | 否 | 2 | [1,10000] |
叶节点所含最少样本数 | 样本数少于该数据不会分支。 | 否 | 1 | [1,10000] |
节点最小权重系数 | 叶子节点中样本的最小权重系数。 | 否 | 0 | [0, 99999999] |
最大深度 | 各个回归估计量的最大深度。最大深度限制了树中节点的数量。 | 否 | 3 | [1,100] |
分位数 | 如果噪音点较多,可以适当降低这个分位数的值,当损失函数为Huber或分位数回归时,才需要配置。 | 否 | 0.9 | [0,1] |
测试集比例 | 测试模型的数据占总输入数据的比例,用于计算模型的评价指标,默认0.2。 | 是 | 0.2 | [0,1] |
测试集生成方式 | 随机:按比例随机从输入数据中截取n条数据作为测试集; 头部:按比例将输入数据前n条数据作为测试集; 尾部:按比例将输入数据后n条数据作为测试集。剩余部分作为训练集。 | 是 | 随机 |
|
特征重要性展示特征数 | 模型特征重要性展示时,实际展示的特征个数。只展示最重要的n个特征,默认10。若设置的展示数小于实际特征数,则展示实际特征数。 | 是 | 10 | [1,20] |
其他参数
参数名 | 参数描述 |
模型结果 | 可以查看建模成功后的模型评价结果。包含:
|