本文为您介绍LightGBM组件。
功能说明
LightGBM组件支持使用lightgbm算法对分类或回归问题进行建模。lightgbm是一个梯度Boosting框架,使用基于决策树的学习算法。它可以说是分布式的,高效的,有以下优势:
更快的训练效率
低内存使用
更高的准确率
支持并行化学习
可以处理大规模数据
与常见的机器学习算法对比,速度是非常快的。
计算逻辑原理
LightGBM 通过叶分裂(Leaf-wise)策略来生长树。每次从当前所有叶子中,找到分裂增益最大的一个叶子,然后分裂,如此循环。同每层分裂(Level-wise)相比,在分裂次数相同的情况下,叶分裂(Leaf-wise)可以降低更多的误差,得到更好的精度。当样本量较小的时候,leaf-wise 可能会造成过拟合。 所以,LightGBM 可以利用参数 "最大树深度"来限制树的深度并避免过拟合。
参数说明
IN端口
参数名 | 参数描述 | 是否必填 | 输入数据类型 | 数据源类型 |
特征变量 | 配置模型特征变量,用数据的特征变量去对目标变量进行预测。 | 是 | 整数或浮点数 说明 若存在非数值数据,则会置为NaN。 |
|
目标变量 | 配置模型目标变量。 | 是 |
说明 若存在非数值数据,则会抛出异常。 |
|
模型端口
参数名 | 参数描述 | 输出参数 | 输出数据类型 |
模型 | 输出算法训练后模型存储的地址。 | 模型地址 | 字符 |
算法参数
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
建模类型 | 选择使用分类模型还是回归模型进行建模。 | 是 | 分类 |
|
最大树叶数 | 无 | 否 | 31 | [0,10000] |
最大树深度 | 各个回归估计量的最大深度。最大深度限制了树中节点的数量,<= 0表示没有限制。 | 否 | -1 | [-1,100] |
学习率 | 无 | 否 | 0.1 | (0,1] |
树的数量 | 要适应的增强树的数量。 | 否 | 100 | [1,10000] |
测试集比例 | 测试模型的数据占总输入数据的比例,用于计算模型的评价指标。 | 是 | 0.2 | [0,1] |
测试集生成方式 | 根据选定方式,选取部分数据作为测试集,剩余部分作为训练集。
| 是 | 随机 |
|
特征重要性展示特征数 | 模型特征重要性展示时,实际展示的特征个数。只展示最重要的n个特征,默认10。若设置的展示数小于实际特征数,则展示实际特征数。 | 是 | 10 | [1,20] |
其他参数
参数名 | 参数描述 |
模型结果 | 查看模型训练结果或发布模型。 |