数据建模_大数据开发治理平台 DataWorks(DataWorks)-阿里云帮助中心

本文将为您介绍如何载入DataWorks中处理好的数据到人工智能平台PAI中，构建窃漏电用户的识别模型。

前提条件

开始本文的操作前，请首先完成加工数据中的操作。

新建空白工作流并进入工作流，具体操作，请参见新建自定义工作流。

在左侧组件列表，将源/目标下的读数据表组件拖入画布中，并重命名为data4ml。
在画布中选中data4ml节点，在右侧节点配置页面中的表名中输入data4ml，读取表数据。
右键单击画布中的data4ml节点，在快捷菜单，单击执行该节点。
节点运行成功后，右键单击data4ml，选择查看数据 > ODPS源的输出，即可查看载入的结果数据。数据包括电量趋势下降指标、线损指标和告警类指标数量等窃电漏电指标，以及用户是否真实窃电漏电的数据。

相关性分析
1. 在左侧组件列表，将统计分析下的相关系数矩阵组件拖入画布中。
2. 通过连线，将相关系数矩阵-1节点作为data4ml节点的下游节点。
3. 右键单击相关系数矩阵-1，在快捷菜单，单击执行该节点。
4. 待运行完成后，右键单击相关系数矩阵-1，在快捷菜单，单击可视化分析，来查看分析报告。
特征分析
1. 在左侧组件列表，将统计分析下的数据视图组件拖入画布中。
2. 通过连线，将数据视图-1节点作为data4ml节点的下游节点。
3. 单击画布中的数据视图-1节点，在右侧字段设置页签，将特征列设置为trend、xiansun和warnindicator3个字段，将目标列设置为flag。
4. 右键单击数据视图-1，在快捷菜单，单击执行该节点。
5. 待运行完成后，右键单击数据视图-1，在快捷菜单，单击可视化分析。即可查看各个特征和标签列在数据分布上的关系。

完成简单的探索性分析之后，即可开始选择合适的算法模型进行数据建模。

通过拆分组件，将数据分为训练集和测试集。
1. 在左侧组件列表，将数据预处理下的拆分组件拖入画布中。
2. 通过连线，将拆分-1节点作为data4ml节点的下游节点。
3. 右键单击拆分-1，在快捷菜单，单击执行该节点。
4. 待运行完成后，右键单击拆分-1，选择查看数据 > 输出表，查看拆分后的表数据。
通过逻辑回归二分类组件，对数据进行回归建模。
1. 在左侧组件列表，将机器学习 > 二分类下的逻辑回归二分类组件拖入画布中。
2. 通过连线，将逻辑回归二分类-1节点作为拆分-1节点输出表1端口的下游节点。
3. 单击画布中的逻辑回归二分类-1节点，在右侧字段设置页签，将特征列设置为trend、xiansun和warnindicator3个字段，将目标列设置为flag。
4. 右键单击逻辑回归二分类-1，在快捷菜单，单击执行该节点。
5. 执行完成后，右键单击逻辑回归二分类-1，选择模型选项 > 模型描述，即可查看数据模型。

至此，您已通过人工智能平台PAI完成了用户窃电行为的识别。您还可以通过EAS在线部署，将该服务部署为可在线调用的服务，提供用户窃电行为的在线识别服务。