基于图算法实现金融风控

本文为您介绍如何基于图算法,实现金融风控。

背景信息

图算法通常适用于关系网状的业务场景。与常规结构化数据不同,图算法将数据整理为首尾相连的关系图谱,需要考虑边和点。PAI提供了丰富的图算法组件,包括K-Core、最大联通子图及标签传播聚类等。

本实验以人物通联关系图(如下图所示)为例,基于图算法实现金融风控。两人之间的连线表示两人具有一定关系,可以是同事或亲人等。已知Enoch为信用用户,Evan为欺诈用户,通过图算法可以计算其它人的信用指数,获得每个人为欺诈用户的概率,从而指导相关机构进行金融风控。任务关系图

数据集

本工作流数据集的具体字段如下。

字段名

含义

类型

描述

start_point

边的起始节点

STRING

人物。

end_point

边的结束节点

STRING

人物。

count

关系紧密度

DOUBLE

数值越大,两人的关系越紧密。

数据的示例如下。示例数据

基于图算法实现金融风控

  1. 进入Designer页面。

    1. 登录PAI控制台

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应的工作空间。

    3. 在工作空间页面的左侧导航栏选择模型开发与训练 > 可视化建模(Designer),进入Designer页面。

  2. 构建工作流。

    1. Designer页面,单击预置模板页签。

    2. 在模板列表,单击图算法-金融风控实验下的创建

    3. 新建工作流对话框,配置参数(可以全部使用默认参数)。

      其中:工作流数据存储配置为OSS Bucket路径,用于存储工作流运行中产出的临时数据和模型。

    4. 单击确定

      您需要等待大约十秒钟,工作流可以创建成功。

    5. 在工作流列表,双击图算法-金融风控实验,进入工作流。

    6. 系统根据预置的模板,自动构建工作流,如下图所示。

      image.png

      区域

      描述

      首先通过最大联通子图组件将数据中的群体分为两部分,并赋予group_id。然后通过SQL脚本组件和JOIN组件去除图中的无关联人员。

      最大联通子图组件可以查找具有通联关系的最大集合,从而排除团队中与风控无关的人,如下图所示。最大连通集合

      探查每个人的一度人脉及二度人脉等关系。单源最短路径组件的输出结果中,distance表示Enoch通过几个人可以联络到目标人,如下图所示。单元最短路径结果

      首先通过读数据表组件导入标签数据(weight表示目标属于欺诈用户的概率,如下图所示)。然后通过标签传播分类组件预测未标记节点的标签信息。最后通过SQL脚本筛选结果,从而展示每个人的涉嫌欺诈概率。打标数据示例

      标签传播分类算法为半监督的分类算法,其输入包括人物通联图和标签数据,通过已标记节点的标签信息预测未标记节点的标签信息。算法执行过程中,每个节点的标签根据相似度传播给相邻节点。

  3. 运行工作流并查看输出结果。

    1. 单击画布上方的image

    2. 工作流运行结束后,右键单击区域③中的SQL脚本,在快捷菜单,单击查看数据,即可查看每个人的欺诈概率。封控结果