PAI提供了特征编码、模型训练及模型评估全套功能,您只需要抽取异常行为特征,并对其进行标记,即可快速构建异常指标监控模型。

背景信息

用户系统中的异常数据(例如运维系统的CPU消耗突然增高或某平台突然产生大量不良信息)属于平台异常指标。如果能实时高效地监控平台指标,并对各种异常指标进行预防和实时预警,将大幅度提升平台的智能化安全防卫能力。

解决方案

PAI提供了一套基于指标监控的分类算法,将异常指标监控抽象为二分类场景,并将监控模型部署至在线系统,从而实现近线风控。该方案的要求如下:
  • 人力要求:需要熟悉机器学习经典算法,尤其是特征工程及二分类算法。
  • 开发周期:1~2天。
  • 数据要求:上千条的标签数据,该数据标记了异常数据和正常数据。

数据集

本工作流使用的数据为系统级别监控日志数据,共22544条数据,其中异常数据为9711条。工作流的示例数据如下。异常监控实验数据
参数名称参数描述
protocol_type网络连接协议,包括tcpicmpudp等。
service服务协议,包括HTTPfingerpopprivatesmtp等。
flage取值包括SFRSTOREJ
a2~a38不同的系统指标。
class标签字段。其中normal表示正常样本,anomaly表示异常样本。

异常指标监控

  1. 进入PAI-Designer页面。
    1. 登录PAI控制台
    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。
    3. 在工作空间页面的左侧导航栏选择模型开发和训练 > 可视化建模(Designer),进入Designer页面。
  2. 构建工作流。
    1. 在PAI-Designer页面,单击预置模板页签。
    2. 模板列表,单击异常行为风控下的创建
    3. 新建工作流对话框,配置参数(可以全部使用默认参数)。
      其中:工作流数据存储配置为OSS Bucket路径,用于存储工作流运行中产出的临时数据和模型。
    4. 单击确定
      您需要等待大约十秒钟,工作流可以创建成功。
    5. 在工作流列表,双击异常行为风控,进入工作流。
    6. 系统根据预置的模板,自动构建工作流,如下图所示。
      异常监控实验
      区域描述
      工作流的数据集。
      特征工程:
      1. 通过one-hot编码组件将字符型特征转化为数值型。
      2. 通过归一化组件将所有数据限定至0~1之间,从而去除量纲影响。归一化后的数据如下图所示。归一化结果
      3. 通过SQL脚本将目标列为anomaly的标记为1,将目标列为normal的标记为0。SQL示例如下。
        select (case class  when 'anomaly' then 1 else 0 end) as class from  ${t1};
      根据正常和异常样本,使用逻辑回归二分类算法训练监控模型。
      使用二分类评估组件进行模型验证,可以通过AUC、KS及F1Score等指标评估模型效果。
  3. 运行工作流并查看模型效果。
    1. 单击画布上方的运行
    2. 工作流运行结束后,右键单击画布中的二分类评估-1,在快捷菜单,单击可视化分析
    3. 二分类评估对话框,单击指标数据页签,即可查看模型评估指标数据。
      指标监控模型结果其中AUC值表示该实验模型的预测准确率达到了90%以上。