什么是LightGBM功能_工业大脑(Industrial Intelligence)-阿里云帮助中心

本文为您介绍LightGBM组件。

功能说明

LightGBM组件支持使用lightgbm算法对分类或回归问题进行建模。lightgbm是一个梯度Boosting框架，使用基于决策树的学习算法。它可以说是分布式的，高效的，有以下优势：

更快的训练效率
低内存使用
更高的准确率
支持并行化学习
可以处理大规模数据

与常见的机器学习算法对比，速度是非常快的。

计算逻辑原理

LightGBM 通过叶分裂(Leaf-wise)策略来生长树。每次从当前所有叶子中，找到分裂增益最大的一个叶子，然后分裂，如此循环。同每层分裂(Level-wise)相比，在分裂次数相同的情况下，叶分裂(Leaf-wise)可以降低更多的误差，得到更好的精度。当样本量较小的时候，leaf-wise 可能会造成过拟合。所以，LightGBM 可以利用参数 "最大树深度"来限制树的深度并避免过拟合。

参数说明

IN端口

参数名	参数描述	是否必填	输入数据类型	数据源类型
特征变量	配置模型特征变量，用数据的特征变量去对目标变量进行预测。	是	整数或浮点数说明若存在非数值数据，则会置为NaN。	CSV组件。 IGateOffline组件。平台上其他数据处理组件。按照平台组件开发的自定义组件。
目标变量	配置模型目标变量。	是	分类：整数或浮点数或字符回归：整数或浮点数说明若存在非数值数据，则会抛出异常。	CSV组件。 IGateOffline组件。平台上其他数据处理组件。按照平台组件开发的自定义组件。

模型端口

参数名	参数描述	输出参数	输出数据类型
模型	输出算法训练后模型存储的地址。	模型地址	字符

算法参数

参数名	参数描述	是否必填	参数默认值	参数范围
建模类型	选择使用分类模型还是回归模型进行建模。	是	分类	分类回归
最大树叶数	无	否	31	[0,10000]
最大树深度	各个回归估计量的最大深度。最大深度限制了树中节点的数量，<= 0表示没有限制。	否	-1	[-1,100]
学习率	无	否	0.1	(0,1]
树的数量	要适应的增强树的数量。	否	100	[1,10000]
测试集比例	测试模型的数据占总输入数据的比例，用于计算模型的评价指标。	是	0.2	[0,1]
测试集生成方式	根据选定方式，选取部分数据作为测试集，剩余部分作为训练集。随机：按比例随机从输入数据中截取n条数据作为测试集。头部：按比例将输入数据前n条数据作为测试集。尾部：按比例将输入数据后n条数据作为测试集。	是	随机	随机头部尾部
特征重要性展示特征数	模型特征重要性展示时，实际展示的特征个数。只展示最重要的n个特征，默认10。若设置的展示数小于实际特征数，则展示实际特征数。	是	10	[1,20]

其他参数

参数名	参数描述
模型结果	查看模型训练结果或发布模型。