本文为您介绍随机森林组件。
功能说明
随机森林组件支持使用随机森林算法对分类或回归问题进行建模。随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。
计算逻辑原理
随机森林就是种了很多决策树,对输入向量进行分类(回归)。每一棵树都是决策树,要对这个输入向量进行“投票”。森林就是选择投票最多的那个树。
应用举例:如下图
参数说明
IN端口
参数名 | 参数描述 | 是否必填 | 输入数据类型 | 数据源类型 |
特征变量 | 配置模型特征列 | 是 | 整数或浮点数 说明 若存在非数值数据,则会抛出异常。 |
|
目标变量 | 配置模型目标列 | 是 |
说明 若存在非数值数据,则会抛出异常。 |
|
模型端口
参数名 | 参数描述 | 输出参数 | 输出数据类型 |
模型 | 输出算法训练后模型存储的地址。 | 模型地址 | 字符 |
算法参数
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
建模类型 | 选择使用分类模型还是回归模型进行建模。 | 是 | 分类 |
|
树数量 | 要执行的提升阶段数。梯度提升对于过度拟合具有相当强的鲁棒性,因此大量提升通常会带来更好的性能 | 否 | 100 | [1, 10000] |
最大深度 | 各个回归估计量的最大深度。最大深度限制了树中节点的数量 | 否 | -1 | [-1, 99999999] |
最小分割样本下限 | 拆分内部节点所需的最少样本数 | 否 | 2 | [0, 99999999] |
节点最少样本数 | 在叶节点处需要的最小样本数,少于该数据不会分支 | 否 | 1 | [1, 99999999] |
节点最小权重系数 | 在所有叶节点处(所有输入样本)的权重总和中的最小加权分数 | 否 | 0.0 | [0.0, 99999999] |
测试集比例 | 测试模型的数据占总输入数据的比例,用于计算模型的评价指标。 | 是 | 0.2 | [0,1] |
测试集生成方式 | 根据选定方式,选取部分数据作为测试集,剩余部分作为训练集。
| 是 | 随机 |
|
特征重要性展示特征数 | 模型特征重要性展示时,实际展示的特征个数。只展示最重要的n个特征,默认10。若设置的展示数小于实际特征数,则展示实际特征数。 | 是 | 10 | [1,20] |
建模类型:分类
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
特征分裂指标 | 衡量分割质量的功能。 | 否 | 基尼系数 |
|
建模类型:回归
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
衡量分枝质量指标 | 衡量分枝质量的指标。
| 否 | 均方误差 |
|
其他参数
参数名 | 参数描述 |
模型结果 | 可以查看建模成功后的模型评价结果或发布模型。 |