什么是随机森林算法组件,有哪些参数_工业大脑(Industrial Intelligence)-阿里云帮助中心

本文为您介绍随机森林组件。

功能说明

随机森林组件支持使用随机森林算法对分类或回归问题进行建模。随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习（Ensemble Learning）方法。

随机森林就是种了很多决策树，对输入向量进行分类（回归）。每一棵树都是决策树，要对这个输入向量进行“投票”。森林就是选择投票最多的那个树。

应用举例：如下图

参数名	参数描述	是否必填	输入数据类型	数据源类型
特征变量	配置模型特征列	是	整数或浮点数说明若存在非数值数据，则会抛出异常。	CSV组件。 IGateOffline组件。平台上其他数据处理组件。按照平台组件开发的自定义组件。
目标变量	配置模型目标列	是	分类：整数或浮点数或字符回归：整数或浮点数说明若存在非数值数据，则会抛出异常。	CSV组件。 IGateOffline组件。平台上其他数据处理组件。按照平台组件开发的自定义组件。

参数名	参数描述	输出参数	输出数据类型
模型	输出算法训练后模型存储的地址。	模型地址	字符

参数名	参数描述	是否必填	参数默认值	参数范围
建模类型	选择使用分类模型还是回归模型进行建模。	是	分类	分类回归
树数量	要执行的提升阶段数。梯度提升对于过度拟合具有相当强的鲁棒性，因此大量提升通常会带来更好的性能	否	100	[1, 10000]
最大深度	各个回归估计量的最大深度。最大深度限制了树中节点的数量	否	-1	[-1, 99999999]
最小分割样本下限	拆分内部节点所需的最少样本数	否	2	[0, 99999999]
节点最少样本数	在叶节点处需要的最小样本数，少于该数据不会分支	否	1	[1, 99999999]
节点最小权重系数	在所有叶节点处（所有输入样本）的权重总和中的最小加权分数	否	0.0	[0.0, 99999999]
测试集比例	测试模型的数据占总输入数据的比例，用于计算模型的评价指标。	是	0.2	[0,1]
测试集生成方式	根据选定方式，选取部分数据作为测试集，剩余部分作为训练集。随机：按比例随机从输入数据中截取n条数据作为测试集。头部：按比例将输入数据前n条数据作为测试集。尾部：按比例将输入数据后n条数据作为测试集。	是	随机	随机头部尾部
特征重要性展示特征数	模型特征重要性展示时，实际展示的特征个数。只展示最重要的n个特征，默认10。若设置的展示数小于实际特征数，则展示实际特征数。	是	10	[1,20]

建模类型：分类

参数名

参数描述

是否必填

参数默认值

参数范围

特征分裂指标

衡量分割质量的功能。

否

基尼系数

建模类型：回归

参数名

参数描述

是否必填

参数默认值

参数范围

衡量分枝质量指标

衡量分枝质量的指标。

否

均方误差

参数名	参数描述
模型结果	可以查看建模成功后的模型评价结果或发布模型。