本文为您介绍如何基于图算法,实现金融风控。

背景信息

图算法通常适用于关系网状的业务场景。与常规结构化数据不同,图算法将数据整理为首尾相连的关系图谱,需要考虑边和点。PAI提供了丰富的图算法组件,包括K-Core、最大联通子图及标签传播聚类等。

本实验以人物通联关系图(如下图所示)为例,基于图算法实现金融风控。两人之间的连线表示两人具有一定关系,可以是同事或亲人等。已知Enoch为信用用户,Evan为欺诈用户,通过图算法可以计算其它人的信用指数,获得每个人为欺诈用户的概率,从而指导相关机构进行金融风控。任务关系图

数据集

本实验数据集的具体字段如下。
字段名 含义 类型 描述
start_point 边的起始节点 STRING 人物。
end_point 边的结束节点 STRING 人物。
count 关系紧密度 DOUBLE 数值越大,两人的关系越紧密。
数据的示例如下。示例数据

基于图算法实现金融风控

  1. 进入PAI-Studio控制台。
    1. 登录PAI控制台
    2. 在左侧导航栏,选择模型开发和训练 > Studio-可视化建模
    3. PAI可视化建模页面,单击进入机器学习进入机器学习
  2. 构建实验。
    1. 在PAI-Studio控制台的左侧导航栏,单击首页
    2. 模板列表,单击【图算法】金融风控实验下的从模板创建
    3. 新建实验对话框,配置参数(可以全部使用默认参数)。
      参数 描述
      名称 输入【图算法】金融风控实验
      项目 不支持修改。
      描述 输入针对个人信用,使用图算法解决金融行业的风控问题。
      位置 选择我的实验
    4. 单击确定
    5. 可选:等待大约十秒钟,在PAI-Studio控制台的左侧导航栏,单击实验
    6. 可选:我的实验下,单击【图算法】金融风控实验_XX
      其中我的实验为已配置的实验位置【图算法】金融风控实验_XX为已配置的实验名称_XX为系统自动添加的实验序号)。
    7. 系统根据预置的模板,自动构建实验,如下图所示。
      图算法实验
      区域 描述

      首先通过最大联通子图组件将数据中的群体分为两部分,并赋予group_id。然后通过SQL脚本组件和JOIN组件去除图中的无关联人员。

      最大联通子图组件可以查找具有通联关系的最大集合,从而排除团队中与风控无关的人,如下图所示。最大连通合集
      探查每个人的一度人脉及二度人脉等关系。单源最短路径组件的输出结果中,distance表示Enoch通过几个人可以联络到目标人,如下图所示。单源最短路径结果
      首先通过已知数据(读数据表)组件导入标签数据(weight表示目标属于欺诈用户的概率,如下图所示)。然后通过标签传播分类组件预测未标记节点的标签信息。最后通过SQL脚本筛选结果,从而展示每个人的涉嫌欺诈概率。打标数据示例

      标签传播分类算法为半监督的分类算法,其输入包括人物通联图和标签数据,通过已标记节点的标签信息预测未标记节点的标签信息。算法执行过程中,每个节点的标签根据相似度传播给相邻节点。

  3. 运行实验并查看输出结果。
    1. 单击画布上方的运行
    2. 实验运行结束后,右键单击画布中的欺诈权重_SQL脚本,在快捷菜单,单击查看数据,即可查看每个人的欺诈概率。风控结果