PAI提供了特征编码、模型训练及模型评估全套功能,您只需要抽取异常行为特征,并对其进行标记,即可快速构建异常指标监控模型。
背景信息
用户系统中的异常数据(例如运维系统的CPU消耗突然增高或某平台突然产生大量不良信息)属于平台异常指标。如果能实时高效地监控平台指标,并对各种异常指标进行预防和实时预警,将大幅度提升平台的智能化安全防卫能力。
解决方案
PAI提供了一套基于指标监控的分类算法,将异常指标监控抽象为二分类场景,并将监控模型部署至在线系统,从而实现近线风控。该方案的要求如下:
人力要求:需要熟悉机器学习经典算法,尤其是特征工程及二分类算法。
开发周期:1~2天。
数据要求:上千条的标签数据,该数据标记了异常数据和正常数据。
数据集
本工作流使用的数据为系统级别监控日志数据,共22544条数据,其中异常数据为9711条。工作流的示例数据如下。
参数名称 | 参数描述 |
protocol_type | 网络连接协议,包括tcp、icmp及udp等。 |
service | 服务协议,包括HTTP、finger、pop、private及smtp等。 |
flage | 取值包括SF、RSTO及REJ。 |
a2~a38 | 不同的系统指标。 |
class | 标签字段。其中normal表示正常样本,anomaly表示异常样本。 |
异常指标监控
进入Designer页面。
登录PAI控制台。
在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应的工作空间。
在工作空间页面的左侧导航栏选择 ,进入Designer页面。
构建工作流。
在Designer页面,单击预置模板页签。
在模板列表,单击异常行为风控下的创建。
在新建工作流对话框,配置参数(可以全部使用默认参数)。
其中:工作流数据存储配置为OSS Bucket路径,用于存储工作流运行中产出的临时数据和模型。
单击确定。
您需要等待大约十秒钟,工作流可以创建成功。
在工作流列表,双击异常行为风控,进入工作流。
系统根据预置的模板,自动构建工作流,如下图所示。
区域
描述
①
工作流的数据集。
②
特征工程:
通过one-hot编码组件将字符型特征转化为数值型。
通过归一化组件将所有数据限定至0~1之间,从而去除量纲影响。归一化后的数据如下图所示。
通过SQL脚本将目标列为anomaly的标记为1,将目标列为normal的标记为0。SQL示例如下。
select (case class when 'anomaly' then 1 else 0 end) as class from ${t1};
③
根据正常和异常样本,使用逻辑回归二分类算法训练监控模型。
④
使用二分类评估组件进行模型验证,可以通过AUC、KS及F1Score等指标评估模型效果。
运行工作流并查看模型效果。
单击画布上方的。
工作流运行结束后,右键单击画布中的二分类评估,在快捷菜单,单击可视化分析。
在二分类评估对话框,单击指标数据页签,即可查看模型评估指标数据。
其中AUC值表示该实验模型的预测准确率达到了90%以上。