文档

随机森林

更新时间:

本文为您介绍随机森林组件。

功能说明

随机森林组件支持使用随机森林算法对分类或回归问题进行建模。随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。

计算逻辑原理

随机森林就是种了很多决策树,对输入向量进行分类(回归)。每一棵树都是决策树,要对这个输入向量进行“投票”。森林就是选择投票最多的那个树。

应用举例:如下图

image

参数说明

IN端口

参数名

参数描述

是否必填

输入数据类型

数据源类型

特征变量

配置模型特征列

整数或浮点数

说明

若存在非数值数据,则会抛出异常。

  • CSV组件。

  • IGateOffline组件。

  • 平台上其他数据处理组件。

  • 按照平台组件开发的自定义组件。

目标变量

配置模型目标列

  • 分类:整数或浮点数或字符

  • 回归:整数或浮点数

说明

若存在非数值数据,则会抛出异常。

  • CSV组件。

  • IGateOffline组件。

  • 平台上其他数据处理组件。

  • 按照平台组件开发的自定义组件。

模型端口

参数名

参数描述

输出参数

输出数据类型

模型

输出算法训练后模型存储的地址。

模型地址

字符

算法参数

参数名

参数描述

是否必填

参数默认值

参数范围

建模类型

选择使用分类模型还是回归模型进行建模。

分类

  • 分类

  • 回归

树数量

要执行的提升阶段数。梯度提升对于过度拟合具有相当强的鲁棒性,因此大量提升通常会带来更好的性能

100

[1, 10000]

最大深度

各个回归估计量的最大深度。最大深度限制了树中节点的数量

-1

[-1, 99999999]

最小分割样本下限

拆分内部节点所需的最少样本数

2

[0, 99999999]

节点最少样本数

在叶节点处需要的最小样本数,少于该数据不会分支

1

[1, 99999999]

节点最小权重系数

在所有叶节点处(所有输入样本)的权重总和中的最小加权分数

0.0

[0.0, 99999999]

测试集比例

测试模型的数据占总输入数据的比例,用于计算模型的评价指标。

0.2

[0,1]

测试集生成方式

根据选定方式,选取部分数据作为测试集,剩余部分作为训练集。

  • 随机:按比例随机从输入数据中截取n条数据作为测试集。

  • 头部:按比例将输入数据前n条数据作为测试集。

  • 尾部:按比例将输入数据后n条数据作为测试集。

随机

  • 随机

  • 头部

  • 尾部

特征重要性展示特征数

模型特征重要性展示时,实际展示的特征个数。只展示最重要的n个特征,默认10。若设置的展示数小于实际特征数,则展示实际特征数。

10

[1,20]

建模类型:分类

参数名

参数描述

是否必填

参数默认值

参数范围

特征分裂指标

衡量分割质量的功能。

基尼系数

  • 基尼系数

  • 信息熵

建模类型:回归

参数名

参数描述

是否必填

参数默认值

参数范围

衡量分枝质量指标

衡量分枝质量的指标。

  • 均方误差:父节点和子节点之间的均方误差的差额将被用来作为特征选择的标准,这种方法通过使用叶子节点的均值来最小化L2损失。

  • 平均绝对误差:它使用叶节点的中值来最小化 L1 损失。

均方误差

  • 均方误差

  • 平均绝对误差

其他参数

参数名

参数描述

模型结果

可以查看建模成功后的模型评价结果或发布模型。