本文为您详细介绍GDB Automl模型训练的方法。

背景信息

对数据进行预处理后,就可以选择模型训练工具,进行自动化模型训练和调优。GDB Automl支持运行自动机器学习,批量训练支持的模型,您也可以选择具体的单个模型设置参数进行训练。

运行自动机器学习

  1. 进入GDB Automl。
  2. 在页面顶端,选择模型训练 > 运行自动机器学习...
  3. PARAMETERS(参数设置)区域,配置training_frame(训练数据帧)、response_column(训练目标列)、validation_frame(验证数据帧)、blending_frame(混合模式数据帧)和leaderboard_frame(计算模型评分排行榜所用数据帧)。1.1
  4. ADVANCED(高级参数设置)区域,配置K折交叉验证折数、是否对样本进行平衡、模型停止条件(轮数和时间上限)、模型主要评估指标(支持AUC, MAE, F1, KS, LOGLOSS等多种评估指标)、训练时忽略的特征列或算法等基本参数,也可以指定分组字段或权重列。1.2
  5. 配置好以上参数后,单击建立模型,就可以运行自动机器学习过程。
    GDB Automl会自动迭代优化不同的模型,模型训练的结果如下:
    • 模型排行榜(根据选择的主要评估指标进行排序),在排行榜中会显示各个模型的不同数据指标情况,包括aucpr、auc、f1等指标。1.3
      单击排行榜中模型名称,可以查看模型的详细参数和训练过程,包括模型训练集、验证集的损失函数曲线、ROC曲线等信息。1.4
    • GDB Automl训练模型能够评估各个特征重要性程度:1.5
    • 训练集、验证集、交叉验证的混淆矩阵:1.6
    • 查看模型训练过程中的动态指标,随阈值不同的指标变化情况:1.71.8
    • 单击预览POJO,可以预览生成的模型POJO。1.9

单个模型训练

在工具栏模型训练处,也可以选择一种具体的模型,设置参数,进行自动机器学习的过程。建立模型后同样可以查看模型的排行榜和参数指标。2