本文将为您介绍如何载入DataWorks中处理好的数据,通过机器学习构建窃漏电用户的识别模型。

前提条件

开始本文的操作前,请首先完成数据加工中的操作。

新建实验

  1. 进入机器学习控制台,单击左侧导航栏中的Studio-可视化建模
  2. 单击相应工作空间后的进入机器学习
    进入机器学习
  3. 单击左侧菜单栏中的实验,右键单击我的实验,选择新建空白实验
    新建空白实验
  4. 填写新建实验对话框中的名称描述
    创建实验
  5. 单击创建

载入数据集

  1. 单击左侧导航栏中的数据源
  2. 在搜索框输入数据加工中最终输出的data4ml表,单击搜索图标。
  3. 拖拽表搜索结果下的data4ml表至右侧画布。

    载入数据
    右键单击读数据表,选择查看数据,即可查看载入的结果数据。数据包括1个用户的电量趋势下降指标、线损指标和告警类指标数量等3个窃电漏电指标,以及用户是否真实窃电漏电的数据。
    查看数据
    查看数据

进行数据探索

  1. 相关性分析
    1. 单击左侧导航栏中的组件,拖拽统计分析 > 相关系数矩阵至右侧画布。
      相关系数矩阵
    2. 连线读数据表中ODPS源的输出和相关系数矩阵的输入。
    3. 右键单击相关系数矩阵,选择从此处开始执行
    4. 待运行完成后,右键单击相关系数矩阵,选择查看分析报告

      查看分析报告

      如相关系数矩阵图所示,3个窃电漏电指标对于最终是否为窃电用户的关系都不是特别明显,即决定用户是否为窃电用户的特征并不具有单一性。

  2. 特征分析
    1. 单击左侧导航栏中的组件,拖拽统计分析 > 数据视图至右侧画布。
      数据视图
    2. 连线读数据表中ODPS源的输出和数据视图的输入。
    3. 双击数据视图,选择右侧的字段设置 > 选择特征列,单击选择字段,并选择目标列为flag。
      字段设置
    4. 选择字段对话框中,选择trend、xiansun和warnindicator3个字段,单击确定
      选择字段
    5. 右键单击 数据视图,选择从此处开始执行
    6. 执行完成后,选择查看分析报告,即可查看各个特征和标签列在数据分布上的关系。
      查看分析关系

进行数据建模

完成简单的探索性分析之后,即可开始选择合适的算法模型进行数据建模。

  1. 通过拆分组件,将数据分为训练集和测试集。
    1. 单击左侧导航栏中的组件,拖拽数据预处理 > 拆分至右侧画布。
      拆分
    2. 连线读数据表中ODPS源的输出和拆分的输入。
    3. 右键单击拆分,选择从此处开始执行
    4. 待运行完成后,右键单击拆分,选择查看数据 > 查看输出桩

      查看输出桩
  2. 通过逻辑回归二分类组件,对数据进行回归建模。
    1. 单击左侧导航栏中的组件,拖拽机器学习 > 二分类 > 逻辑回归二分类至右侧画布。
      逻辑回归二分类
    2. 连线拆分中的输出表1和逻辑回归二分类的训练表。
    3. 双击逻辑回归二分类,选择右侧的字段设置 > 选择特征列,单击选择字段,并选择目标列为flag。
      字段设置
    4. 选择字段对话框中,选择trend、xiansun和warnindicator3个字段,单击确定
      选择字段
    5. 右键单击 逻辑回归二分类,选择从此处开始执行
    6. 执行完成后,选择模型选项 > 查看模型,即可查看数据模型。
      查看模型

预测和评估回归模型

  1. 通过预测组件,预测该模型在测试数据集上的效果。
    1. 单击左侧导航栏中的组件,拖拽机器学习 > 预测至右侧画布。
      预测
    2. 连线逻辑回归二分类中的逻辑回归模型和预测中的模型结果输入。连线拆分中的输出表2和预测的预测数据输入。
    3. 双击预测,进行右侧的字段设置

      字段设置

      特征列默认全选,单击原样输出列下的选择字段

    4. 选择字段对话框中,全选5个字段,单击确定
      选择字段
    5. 右键单击预测,选择从此处开始执行
    6. 执行完成后,选择查看数据
      查看数据
  2. 通过二分类评估组件,获取模型效果。
    1. 单击左侧导航栏中的组件,拖拽机器学习 > 评估 > 二分类评估至右侧画布。
      二分类评估
    2. 连线预测中的预测结果输出和二分类评估中的输入。
    3. 双击二分类评估,选择右侧的字段设置 > 原始标签列列名为flag。
      flag
    4. 右键单击二分类评估,选择从此处开始执行
    5. 执行完成后,选择查看评估报告,即可查看模型效果。
      查看评估报告

后续步骤

至此,您已通过机器学习PAI完成了用户窃电行为的识别。您还可以通过EAS在线部署,将该服务部署为可在线调用的服务,为电网提供用户窃电行为的在线识别服务。