本文将为您介绍如何载入DataWorks中处理好的数据到机器学习中,构建窃漏电用户的识别模型。
前提条件
新建实验
- 进入机器学习控制台,单击左侧导航栏中的Studio-可视化建模。
- 单击相应工作空间后的进入机器学习。
- 单击左侧菜单栏中的实验,右键单击我的实验,选择新建空白实验。
- 填写新建实验对话框中的名称和描述。
- 单击创建。
载入数据集
进行数据探索
- 相关性分析
- 特征分析
- 单击左侧导航栏中的组件,拖拽 至右侧画布。
- 连线读数据表中ODPS源的输出和数据视图的输入。
- 双击数据视图,选择右侧的 ,单击选择字段,并选择目标列为flag。
- 在选择字段对话框中,选择trend、xiansun和warnindicator3个字段,单击确定。
- 右键单击 数据视图,选择从此处开始执行。
- 执行完成后,选择查看分析报告,即可查看各个特征和标签列在数据分布上的关系。
- 单击左侧导航栏中的组件,拖拽 至右侧画布。
进行数据建模
完成简单的探索性分析之后,即可开始选择合适的算法模型进行数据建模。
- 通过拆分组件,将数据分为训练集和测试集。
- 通过逻辑回归二分类组件,对数据进行回归建模。
- 单击左侧导航栏中的组件,拖拽 至右侧画布。
- 连线拆分中的输出表1和逻辑回归二分类的训练表。
- 双击逻辑回归二分类,选择右侧的 ,单击选择字段,并选择目标列为flag。
- 在选择字段对话框中,选择trend、xiansun和warnindicator3个字段,单击确定。
- 右键单击 逻辑回归二分类,选择从此处开始执行。
- 执行完成后,选择
,即可查看数据模型。
- 单击左侧导航栏中的组件,拖拽 至右侧画布。
预测和评估回归模型
- 通过预测组件,预测该模型在测试数据集上的效果。
- 通过二分类评估组件,获取模型效果。
- 单击左侧导航栏中的组件,拖拽 至右侧画布。
- 连线预测中的预测结果输出和二分类评估中的输入。
- 双击二分类评估,选择右侧的 为flag。
- 右键单击二分类评估,选择从此处开始执行。
- 执行完成后,选择查看评估报告,即可查看模型效果。
- 单击左侧导航栏中的组件,拖拽 至右侧画布。