本文为您介绍决策树组件。
功能说明
决策树是一种用于分类和回归的非参数监督学习方法。目标是创建一个模型,通过学习从数据特征推断出的简单决策规则来预测目标变量的值。一棵树可以看作是分段常数近似。决策树组件支持使用决策树算法对分类或回归问题进行建模。
计算逻辑原理
决策树是一种树形结构,其中每个内部节点表示一个特征上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类或回归的结果,本质是一棵由多个判断节点组成的树。
参数说明
IN端口
参数名 | 参数描述 | 是否必填 | 输入数据类型 | 数据源类型 |
特征变量 | 配置模型特征列 | 是 | 整数或浮点数 说明 若存在非数值数据,则会抛出异常。 |
|
目标变量 | 配置模型目标列 | 是 |
说明 若存在非数值数据,则会抛出异常。 |
|
模型端口
参数名 | 参数描述 | 输出参数 | 输出数据类型 |
模型 | 输出算法训练后模型存储的地址。 | 模型地址 | 字符 |
算法参数
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
建模类型 | 选择使用分类模型还是回归模型进行建模。 | 是 | 分类 |
|
特征切分策略 | 用于在每个节点上选择拆分的策略。支持的策略是“最佳”选择最佳拆分,“随机”选择最佳随机拆分 | 否 | 最佳 |
|
最大深度 | 各个回归估计量的最大深度。最大深度限制了树中节点的数量 | 否 | -1 | [-1, 99999999] |
最小分割样本下限 | 拆分内部节点所需的最少样本数 | 否 | 2 | [0, 99999999] |
节点最少样本数 | 少于该数据不会分支 | 否 | 1 | [1, 99999999] |
节点最小权重系数 | 在所有叶节点处(所有输入样本)的权重总和中的最小加权分数 | 否 | 0.0 | [0, 99999999] |
测试集比例 | 测试模型的数据占总输入数据的比例,用于计算模型的评价指标。 | 是 | 0.2 | [0,1] |
测试集生成方式 | 根据选定方式,选取部分数据作为测试集,剩余部分作为训练集。
| 是 | 随机 |
|
特征重要性展示特征数 | 模型特征重要性展示时,实际展示的特征个数。只展示最重要的n个特征,默认10。若设置的展示数小于实际特征数,则展示实际特征数。 | 是 | 10 | [1,20] |
建模类型:分类
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
特征分裂指标 | 衡量分割质量的功能。 | 否 | 基尼系数 |
|
建模类型:回归
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
衡量分枝质量指标 | 衡量分枝质量的指标。
| 否 | 均方误差 |
|
其他参数
参数名 | 参数描述 |
模型结果 | 可以查看建模成功后的模型评价结果或发布模型。 |