阿里云首页 工业大脑开放平台

XGBoost

功能说明

XGBoost组件支持使用xgboost算法对分类或回归问题进行建模。XGBoost(Extreme Gradient Boosting),是一种高效的Gradient Boosting算法,集成算法的思路是迭代产生多个弱的学习器,然后将每个学习器的预测结果相加得到最终的预测结果,其在结构化数据处理方面具有较优良的性能。

计算逻辑原理

XGBoost是一个树集成模型,它使用的是K(树的总数为K)个树的每棵树对样本的预测值的和作为该样本在XGBoost系统中的预测, XGBoost算法思想就是不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差。当我们训练完成得到k棵树,我们要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,最后只需要将每棵树对应的分数加起来就是该样本的预测值。用数据的特征变量去对目标变量进行预测。

参数说明

IN端口

参数名

参数描述

是否必填

输入数据类型

数据源类型

特征变量

配置模型特征变量。用数据的特征变量去对目标变量进行预测。

整数或浮点数

说明

若存在非数值数据,则会置为NaN

  • csv组件

  • igateoffline组件

  • 平台上其他数据处理组件

  • 按照平台组件开发的自定义组件

目标变量

配置模型目标变量。

  • 分类:整数或浮点数或字符

  • 回归:整数或浮点数

说明

若存在非数值数据,则会抛出异常

  • csv组件

  • igateoffline组件

  • 平台上其他数据处理组件

  • 按照平台组件开发的自定义组件

算法参数

参数名

参数描述

是否必填

参数默认值

参数范围

建模类型

选择使用分类模型还是回归模型进行建模。

回归

  • 分类

  • 回归

树的数量

要适应的增强树的数量。

100

[1,10000]

最大树深度

各个回归估计量的最大深度。

3

[1,100]

学习率

学习效率。

0.1

(0,1]

测试集比例

测试模型的数据占总输入数据的比例,用于计算模型的评价指标。

0.2

[0,1]

测试集生成方式

根据选定方式,选取部分数据作为测试集,剩余部分作为训练集。

  • 随机:按比例随机从输入数据中截取n条数据作为测试集。

  • 头部:按比例将输入数据前n条数据作为测试集。

  • 尾部:按比例将输入数据后n条数据作为测试集。

随机

  • 随机

  • 头部

  • 尾部

特征重要性展示特征数

模型特征重要性展示时,实际展示的特征个数。只展示最重要的n个特征,默认10。若设置的展示数小于实际特征数,则展示实际特征数。

10

[1,20]

其他参数

参数名

参数描述

模型结果

查看模型训练结果或发布模型。