阿里云首页 工业大脑开放平台

LightGBM

功能说明

LightGBM组件支持使用lightgbm算法对分类或回归问题进行建模。lightgbm是一个梯度Boosting框架,使用基于决策树的学习算法。它可以说是分布式的,高效的,有以下优势:

  • 更快的训练效率

  • 低内存使用

  • 更高的准确率

  • 支持并行化学习

  • 可以处理大规模数据

与常见的机器学习算法对比,速度是非常快的。

计算逻辑原理

LightGBM 通过叶分裂(Leaf-wise)策略来生长树。每次从当前所有叶子中,找到分裂增益最大的一个叶子,然后分裂,如此循环。同每层分裂(Level-wise)相比,在分裂次数相同的情况下,叶分裂(Leaf-wise)可以降低更多的误差,得到更好的精度。当样本量较小的时候,leaf-wise 可能会造成过拟合。 所以,LightGBM 可以利用参数 "最大树深度"来限制树的深度并避免过拟合。

参数说明

IN端口

参数名

参数描述

是否必填

输入数据类型

数据源类型

特征变量

配置模型特征变量,用数据的特征变量去对目标变量进行预测。

整数或浮点数

说明

若存在非数值数据,则会置为NaN

  • csv组件

  • igateoffline组件

  • 平台上其他数据处理组件

  • 按照平台组件开发的自定义组件

目标变量

配置模型目标变量。

  • 分类:整数或浮点数或字符

  • 回归:整数或浮点数

说明

若存在非数值数据,则会抛出异常

  • csv组件

  • igateoffline组件

  • 平台上其他数据处理组件

  • 按照平台组件开发的自定义组件

算法参数

参数名

参数描述

是否必填

参数默认值

参数范围

建模类型

选择使用分类模型还是回归模型进行建模。

分类

  • 分类

  • 回归

最大树叶数

31

[0,10000]

最大树深度

各个回归估计量的最大深度。最大深度限制了树中节点的数量,<= 0表示没有限制。

-1

[-1,100]

学习率

0.1

(0,1]

树的数量

要适应的增强树的数量。

100

[1,10000]

测试集比例

测试模型的数据占总输入数据的比例,用于计算模型的评价指标。

0.2

[0,1]

测试集生成方式

根据选定方式,选取部分数据作为测试集,剩余部分作为训练集。

  • 随机:按比例随机从输入数据中截取n条数据作为测试集。

  • 头部:按比例将输入数据前n条数据作为测试集。

  • 尾部:按比例将输入数据后n条数据作为测试集。

随机

  • 随机

  • 头部

  • 尾部

特征重要性展示特征数

模型特征重要性展示时,实际展示的特征个数。只展示最重要的n个特征,默认10。若设置的展示数小于实际特征数,则展示实际特征数。

10

[1,20]

其他参数

参数名

参数描述

模型结果

查看模型训练结果或发布模型。