本文为您介绍梯度提升决策树组件。
功能说明
GBDT(Gradient Boosting Decision Tree)是一种迭代的决策树算法,由多棵决策树组成,是进行多分类的算法模型。梯度提升采用连续的方式构造树,每棵树都试图纠正前一棵树的错误。默认情况下,梯度提升决策树中没有随机化,而是用到了强预剪枝。梯度提升树通常使用深度很小的数,这样模型占用内存更少,预测速度也更快。
计算逻辑原理
GBDT是一种迭代的决策树算法,由多棵决策树组成,每棵树只能对部分数据做出好的预测,所有树的结论累加起来得到最终结果,因此,添加的树越来越多,可以不断迭代提高性能。是一种泛化能力较强的算法。
参数说明
IN端口-输入参数
参数名 | 参数描述 | 输入数据类型 | 数据源类型 |
特征变量 | 配置模型特征列 | 整数或浮点数 说明 若存在非数值数据,则会抛出异常。 |
|
目标变量 | 配置模型目标列 | 整数或浮点数或字符 |
|
模型端口-输出参数
参数名 | 参数描述 | 输出参数 | 输出数据类型 |
模型 | 输出算法训练后模型存储的地址。 | 模型地址 | 字符 |
算法参数
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
损失函数 | 选择损失函数类型,指数损失函数只支持二分类目标。 | 否 | 对数似然 |
|
学习率 | 学习率。 | 否 | 0.1 | [0,1] |
树数量 | 要执行的提升阶段数。梯度提升对于过度拟合具有相当强的鲁棒性,因此大量提升通常会带来更好的性能。 | 否 | 100 | [0,10000] |
最大深度 | 各个回归估计量的最大深度。最大深度限制了树中节点的数量。 | 否 | 3 | [0,100] |
分割样本下限 | 树生长过程中早停止的阈值。如果当前节点的不纯度高于阈值,节点将分裂。 | 否 | 2 | [0,10000] |
叶节点所需样本下限 | 分支所需要的样本下限。 | 否 | 1 | |
采样率 | 用于拟合各个基础学习者的样本比例。 | 否 | 1.0 | [0,1] |
测试集比例 | 测试模型的数据占总输入数据的比例,用于计算模型的评价指标,默认0.2。 | 是 | 0.2 | [0,1] |
测试集生成方式 | 随机:按比例随机从输入数据中截取n条数据作为测试集; 头部:按比例将输入数据前n条数据作为测试集; 尾部:按比例将输入数据后n条数据作为测试集。剩余部分作为训练集。 | 是 | 随机 |
|
特征重要性展示特征数 | 模型特征重要性展示时,实际展示的特征个数。只展示最重要的n个特征,默认10。若设置的展示数小于实际特征数,则展示实际特征数。 | 是 | 10 | [1,20] |
其他参数
参数名 | 参数描述 |
模型结果 | 可以查看建模成功后的模型评价结果。 |