全部产品
弹性计算 会员服务 网络 安全 移动云 数加·大数据分析及展现 数加·大数据应用 管理与监控 云通信 阿里云办公 培训与认证 更多
存储与CDN 数据库 域名与网站(万网) 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 智能硬件
阿里云机器学习

评分卡信用评分

更新时间:2018-05-02 14:59:45

机器学习算法基于信用卡消费记录做信用评分

背景

评分卡是信用风险评估互联网金融领域常用的建模方法,并不简单对应于某一种机器学习算法,而是一种通用的建模框架。它将原始数据通过分箱后进行特征工程变换,继而应用于线性模型进行建模。

评分卡建模理论常被用于各种信用评估领域,比如信用卡风险评估、贷款发放等业务。另外,在其它领域评分卡常被用来作为分数评估,比如常见的客服质量打分、芝麻信用分打分等。本文档通过一个案例讲解如何通过机器学习平台的金融板块组件,搭建出一套评分卡建模方案。

单击加载更多,可以直接从模板创建评分卡实验,如下图所示。该模板包含了整个实验的流程和数据。

image

数据集介绍

上图中是一份国外某机构开源的数据集,共30000条。包含了每个用户的性别、教育、婚姻、年龄等属性,及用户过去一段时间的信用卡消费情况和账单情况。payment_next_month是目标队列,表示用户是否偿还信用卡账单,1表示偿还,0表示没有偿还。

数据集下载地址:https://www.kaggle.com/uciml/default-of-credit-card-clients-dataset

实验流程

实验流程图如下。

  1. 拆分
    将输入数据集分为两部分,一部分用来训练模型,另一部分用来预测评估。

  2. 分箱
    分箱组件类似于onehot编码,可以将数据按照分布映射成更高维度的特征。以age字段为例,分箱组件可以按照数据在不同区间的分布进行分箱操作,分箱结果如图所示。

    最终分箱组件的输出如下图所示,每个字段都被分箱到多个区间上。

  3. 样本稳定指数PSI
    样本稳定指数是衡量样本变化所产生的偏移量的一种重要指标,通常用来衡量样本的稳定程度。比如样本在两个月份之间的变化是否稳定。通常变量的PSI值在0.1以下表示变化不太显著,在0.1到0.25之间表示变化比较显著,大于0.25表示变量变化比较剧烈,需要特殊关注。

    本案例中,综合比较拆分前后以及分箱结果的样本稳定程度,返回每个特征的PSI数值,如下图所示。

  4. 评分卡训练
    评分卡训练的结果图如下所示。

    评分卡的精髓是将复杂的模型权重用符合业务标准的分数表示。

    • intercepy:截距。
    • Unscaled:原始的权重值。
    • Scaled:分数更改指标,比如对于pay_0这个特征,如果特征落在(-1,0]之间分数就减29,如果特征落在(0,1]之间分数就加上27。
    • importance:每个特征对于结果的影响大小,数值越大表示影响越大。
  5. 评分卡预测
    每个预测结果的最终评分,本案例中表示的是每个用户的信用评分。

结论

基于用户的信用卡消费记录,通过评分卡模型训练及评分卡预测得到了每个用户的最终信用评分,这个评分可以应用到各种贷款或者金融相关的征信领域中。

本文导读目录