PAI提供了特征编码、模型训练及模型评估全套功能,您只需要抽取异常行为特征,并对其进行标记,即可快速构建异常指标监控模型。

背景信息

用户系统中的异常数据(例如运维系统的CPU消耗突然增高或某平台突然产生大量不良信息)属于平台异常指标。如果能实时高效地监控平台指标,并对各种异常指标进行预防和实时预警,将大幅度提升平台的智能化安全防卫能力。

解决方案

PAI提供了一套基于指标监控的分类算法,将异常指标监控抽象为二分类场景,并将监控模型部署至在线系统,从而实现近线风控。该方案的要求如下:
  • 人力要求:需要熟悉机器学习经典算法,尤其是特征工程及二分类算法。
  • 开发周期:1~2天。
  • 数据要求:上千条的标签数据,该数据标记了异常数据和正常数据。

数据集

本实验使用的数据为系统级别监控日志数据,共22544条数据,其中异常数据为9711条。实验的示例数据如下。异常监控实验数据
参数名称 参数描述
protocol_type 网络连接协议,包括tcpicmpudp等。
service 服务协议,包括httpfingerpopprivatesmtp等。
flage 取值包括SFRSTOREJ
a2~a38 不同的系统指标。
class 标签字段。其中normal表示正常样本,anomaly表示异常样本。

异常指标监控

  1. 进入PAI-Studio控制台。
    1. 登录PAI控制台
    2. 在左侧导航栏,选择模型开发和训练 > Studio-可视化建模
    3. PAI可视化建模页面,单击进入机器学习进入机器学习
  2. 构建实验。
    1. 在PAI-Studio控制台的左侧导航栏,单击首页
    2. 模板列表,单击异常行为风控下的从模板创建
    3. 新建实验对话框,配置参数(可以全部使用默认参数)。
      参数 描述
      名称 输入异常行为风控
      项目 不支持修改。
      描述 输入通过算法判断系统中的异常行为
      位置 选择我的实验
    4. 单击确定
    5. 可选:等待大约十秒钟,在PAI-Studio控制台的左侧导航栏,单击实验
    6. 可选:我的实验下,单击异常行为风控_XX
      其中我的实验为已配置的实验位置异常行为风控_XX为已配置的实验名称_XX为系统自动添加的实验序号)。
    7. 系统根据预置的模板,自动构建实验,如下图所示。
      异常监控实验
      区域 描述
      实验的数据集。
      特征工程:
      1. 通过one-hot特征编码组件将字符型特征转化为数值型。
      2. 通过归一化组件将所有数据限定至0~1之间,从而去除量纲影响。归一化后的数据如下图所示。归一化结果
      3. 通过SQL脚本将目标列为anomaly的标记为1,将目标列为normal的标记为0。SQL示例如下。
        select (case class  when 'anomaly' then 1 else 0 end) as class from  ${t1};
      根据正常和异常样本,使用逻辑回归二分类算法训练监控模型。
      使用二分类评估组件进行模型验证,可以通过AUC、KS及F1Score等指标评估模型效果。
  3. 运行实验并查看模型效果。
    1. 单击画布上方的运行
    2. 实验运行结束后,右键单击画布中的二分类评估-1,在快捷菜单,单击查看评估报告
    3. 评估报告对话框,单击指标数据页签,即可查看模型评估指标数据。
      指标监控模型结果其中AUC值表示该实验模型的预测准确率达到了90%以上。