文档

机器学习平台金融风控实验分析

更新时间:
一键部署

本实践主要介绍机器学习平台PAI对多个数据源进行分析,以图算法实现金融风控实验为例,展现数据处理的过程。

前提条件

大数据计算MaxCompute、DataWorks、PAI基于企业版V3.14及以上版本。

背景信息

机器学习平台PAI对多个数据源进行分析,以图算法实现金融风控实验为例,展现数据处理的过程,机器学习平台PAI提供丰富且成熟的机器学习算法,覆盖多种场景,满足不同方向的业务需求。

组件介绍

大数据计算服务(MaxCompute)是面向大数据处理的分布式系统,主要提供结构化数据的存储和计算,服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。MaxCompute的目的是为用户提供一种便捷的分析处理海量数据的手段。用户可以不必关心分布式计算细节,从而达到分析大数据的目的。

DataWorks数据工场为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。DataWorks支持离线同步、Shell、ODPS SQL、ODPS MR等多种节点类型,通过节点之间的相互依赖,对复杂的数据进行分析处理。DataWorks提供可视化的代码开发、工作流设计器页面,无需搭配任何开发工具,简单拖拽和开发,即可完成复杂的数据分析任务。

机器学习平台PAI(Platformof Artificial Intelligence)是阿里云人工智能平台,提供一站式的机器学习解决方案,面向企业客户及开发者,提供轻量化、高性价比的云原生机器学习。PAI支持丰富的机器学习算法、一站式的机器学习体验、主流的机器学习框架及可视化的建模。

实践步骤

  1. 准备机器学习所需计算资源。

    首先需要创建大数据MaxCompute的项目,配置计算资源,CPU、内存、存储空间,做大数据计算使用。

    1. 创建大数据MaxCompute项目。

      1. 登录Apsara Uni-manager运营控制台,在上方导航栏选择产品>大数据>大数据计算 MaxCompute,进入大数据计算服务界面。1

      2. 首先,单击创建,创建计算资源配额组作为计算资源使用,单位为cu,1 cu=1 core4G内存。234

      3. 单击新建云账号,创建任务云账号,一个云账号可以关联多个项目资源。56

      4. 单击创建Max Compute集群,创建MaxCompute项目,选择刚创建的配额组和任务云账号,MaxCompute项目之间默认是互相隔离的空间。789

    2. 创建DataWorks工作空间。

      DataWorks一站式数据管理开发的工具,可以对MaxCompute大数据项目的数据进行开发,需要创建DataWorks工作空间并与MaxCompute项目进行关联。

      1. 登录Apsara Uni-manager运营控制台,在上方导航栏选择产品>大数据>DataWorks,进入其页面。10

      2. 首先,选择全部产品>组织管理,单击创建工作空间,关联MaxCompute项目。111213

    3. 创建工作空间业务流程。

      1. 创建完成之后,单击进入工作区,进入工作空间工作区,单击新建业务流程,在当前业务流程可以进行数据集成、数据开发等操作。141516

  2. 机器学习进行数据分析。

    1. 运行金融风控实验。

      1. 登录Apsara Uni-manager运营控制台,然后在页面顶部的菜单栏中,单击产品>大数据>机器学习PAI,跳转进入PAI管理界面。1

      2. 选择模型开发和训练,单击可视化建模(Studio),选择之前创建DataWorks所创建的项目名称,单击进入机器学习,进入机器学习PAI页面。119

      3. 单击左侧首页,可以查看模板列表,包含各行业案例库,选择【图算法】金融风控实验,单击从模板创建,创建金融风控实验。12122

      4. 单击画布上方的运行,进行金融风控实验分析。23

      5. 等所有的运行节点都显示运行完成后即可查看运行结果。24

    2. 运行结果分析。

      1. 本实验以人物通联关系图为例,如下图所示,基于图算法实现金融风控(图算法通常适用于关系网状的业务场景。与常规结构化数据不同,图算法将数据整理为首尾相连的关系图谱,需要考虑边和点)。两人之间的连线表示两人具有一定关系,可以是同事或亲人等。已知Enoch为信用用户,Evan为欺诈用户,通过图算法可以计算其它人的信用指数,获得每个人为欺诈用户的概率,从而指导相关机构进行金融风控。25

      2. 在金融风控实验分析页面,选择人员数据表,右键单击,选择查看数据,即可查看到不同人物名称以及人物关系紧密度数值,该数据为输入数据。127各输入字段含义如下:

        字段名

        含义

        类型

        描述

        start_point

        边的起始节点

        STRING

        人物。

        end_point

        边的结束节点

        STRING

        人物。

        count

        关系紧密度

        DOUBLE

        数值越大,两人的关系越紧密。

    3. 通过最大联通子图组件将数据中的群体分为两部分,并赋予group_id。然后通过SQL脚本组件和JOIN组件去除无关联人员。通过单元最短路径探查每个人的一度人脉及二度人脉等关系。右键单击单源最短路径-1,选择查看数据,即可查看单源最短路径组件的输出结果,distance表示Enoch通过几个人可以联络到目标人。2829

    4. 右键单击已知数据,选择查看数据,通过已知数据(读数据表)组件导入标签数据(weight表示目标属于欺诈用户的概率,如下图所示)。30

    5. 通过标签传播分类组件预测未标记节点的标签信息。最后通过SQL脚本筛选结果,从而展示每个人的涉嫌欺诈概率。右键单击画布中的欺诈权重_SQL脚本,在快捷菜单,单击查看数据,即可查看每个人的欺诈概率。31

  • 本页导读
文档反馈