本文为您介绍XGBoost组件。
功能说明
XGBoost组件支持使用xgboost算法对分类或回归问题进行建模。XGBoost(Extreme Gradient Boosting),是一种高效的Gradient Boosting算法,集成算法的思路是迭代产生多个弱的学习器,然后将每个学习器的预测结果相加得到最终的预测结果,其在结构化数据处理方面具有较优良的性能。
计算逻辑原理
XGBoost是一棵树集成模型,它使用的是K(树的总数为K)个树的每棵树对样本的预测值的和作为该样本在XGBoost系统中的预测, XGBoost算法思想就是不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一棵树,其实是学习一个新函数,去拟合上次预测的残差。当我们训练完成得到k棵树,我们要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,最后只需要将每棵树对应的分数加起来就是该样本的预测值。用数据的特征变量去对目标变量进行预测。
参数说明
IN端口
参数名 | 参数描述 | 是否必填 | 输入数据类型 | 数据源类型 |
特征变量 | 配置模型特征变量。用数据的特征变量去对目标变量进行预测。 | 是 | 整数或浮点数 说明 若存在非数值数据,则会置为NaN。 |
|
目标变量 | 配置模型目标变量。 | 是 |
说明 若存在非数值数据,则会抛出异常。 |
|
模型端口
参数名 | 参数描述 | 输出参数 | 输出数据类型 |
模型 | 输出算法训练后模型存储的地址。 | 模型地址 | 字符 |
算法参数
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
建模类型 | 选择使用分类模型还是回归模型进行建模。 | 是 | 回归 |
|
树的数量 | 要适应的增强树的数量。 | 否 | 100 | [1,10000] |
最大树深度 | 各个回归估计量的最大深度。 | 否 | 3 | [1,100] |
学习率 | 学习效率。 | 否 | 0.1 | (0,1] |
测试集比例 | 测试模型的数据占总输入数据的比例,用于计算模型的评价指标。 | 是 | 0.2 | [0,1] |
测试集生成方式 | 根据选定方式,选取部分数据作为测试集,剩余部分作为训练集。
| 是 | 随机 |
|
特征重要性展示特征数 | 模型特征重要性展示时,实际展示的特征个数。只展示最重要的n个特征,默认10。若设置的展示数小于实际特征数,则展示实际特征数。 | 是 | 10 | [1,20] |
其他参数
参数名 | 参数描述 |
模型结果 | 查看模型训练结果或发布模型。 |