决策树

本文为您介绍决策树组件。

功能说明

决策树是一种用于分类和回归的非参数监督学习方法。目标是创建一个模型,通过学习从数据特征推断出的简单决策规则来预测目标变量的值。一棵树可以看作是分段常数近似。决策树组件支持使用决策树算法对分类或回归问题进行建模。

计算逻辑原理

决策树是一种树形结构,其中每个内部节点表示一个特征上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类或回归的结果,本质是一棵由多个判断节点组成的树。

参数说明

IN端口

参数名

参数描述

是否必填

输入数据类型

数据源类型

特征变量

配置模型特征列

整数或浮点数

说明

若存在非数值数据,则会抛出异常。

  • CSV组件。

  • IGateOffline组件。

  • 平台上其他数据处理组件。

  • 按照平台组件开发的自定义组件。

目标变量

配置模型目标列

  • 分类:整数或浮点数或字符

  • 回归:整数或浮点数

说明

若存在非数值数据,则会抛出异常。

  • CSV组件。

  • IGateOffline组件。

  • 平台上其他数据处理组件。

  • 按照平台组件开发的自定义组件。

模型端口

参数名

参数描述

输出参数

输出数据类型

模型

输出算法训练后模型存储的地址。

模型地址

字符

算法参数

参数名

参数描述

是否必填

参数默认值

参数范围

建模类型

选择使用分类模型还是回归模型进行建模。

分类

  • 分类

  • 回归

特征切分策略

用于在每个节点上选择拆分的策略。支持的策略是“最佳”选择最佳拆分,“随机”选择最佳随机拆分

最佳

  • 最佳

  • 随机

最大深度

各个回归估计量的最大深度。最大深度限制了树中节点的数量

-1

[-1, 99999999]

最小分割样本下限

拆分内部节点所需的最少样本数

2

[0, 99999999]

节点最少样本数

少于该数据不会分支

1

[1, 99999999]

节点最小权重系数

在所有叶节点处(所有输入样本)的权重总和中的最小加权分数

0.0

[0, 99999999]

测试集比例

测试模型的数据占总输入数据的比例,用于计算模型的评价指标。

0.2

[0,1]

测试集生成方式

根据选定方式,选取部分数据作为测试集,剩余部分作为训练集。

  • 随机:按比例随机从输入数据中截取n条数据作为测试集。

  • 头部:按比例将输入数据前n条数据作为测试集。

  • 尾部:按比例将输入数据后n条数据作为测试集。

随机

  • 随机

  • 头部

  • 尾部

特征重要性展示特征数

模型特征重要性展示时,实际展示的特征个数。只展示最重要的n个特征,默认10。若设置的展示数小于实际特征数,则展示实际特征数。

10

[1,20]

建模类型:分类

参数名

参数描述

是否必填

参数默认值

参数范围

特征分裂指标

衡量分割质量的功能。

基尼系数

  • 基尼系数

  • 信息熵

建模类型:回归

参数名

参数描述

是否必填

参数默认值

参数范围

衡量分枝质量指标

衡量分枝质量的指标。

  • 均方误差:父节点和子节点之间的均方误差的差额将被用来作为特征选择的标准,这种方法通过使用叶子节点的均值来最小化L2损失。

  • 费尔德曼均方误差:它使用费尔德曼均方误差,这种指标使用费尔德曼针对潜在分枝中的问题改进后的均方误差。

  • 平均绝对误差:它使用叶节点的中值来最小化 L1 损失。

均方误差

  • 均方误差

  • 费尔德曼均方误差

  • 平均绝对误差

其他参数

参数名

参数描述

模型结果

可以查看建模成功后的模型评价结果或发布模型。