本文基于信用卡消费记录,为您介绍如何通过PAI提供的金融组件,构建评分卡建模方案。

背景信息

评分卡是信用风险评估和互联网金融领域常用的建模方法,并不简单对应于某种机器学习算法,而是一种通用建模框架。其原理是先将分箱后的原始数据进行特征工程变换,再使用线性模型建模。

评分卡建模理论通常适用于信用评估领域,例如信用卡风险评估和贷款发放业务。在其它领域,评分卡建模也可以作为分数评估,例如客服质量打分和芝麻信用打分。

数据集

本实验使用国外某机构开源的数据集(下载数据集),共30000条。该数据集中包含用户的性别、教育、婚姻、年龄、历史信用卡消费情况及信用卡账单情况。

本实验的数据示例如下。实验数据示例其中payment_next_month为目标队列,表示用户是否偿还信用卡账单。其中1表示已偿还账单,0表示未偿还账单。

评分卡信用评分

  1. 进入PAI-Studio控制台。
    1. 登录PAI控制台
    2. 在左侧导航栏,选择模型开发和训练 > Studio-可视化建模
    3. PAI可视化建模页面,单击进入机器学习进入机器学习
  2. 构建实验。
    1. 在PAI-Studio控制台的左侧导航栏,单击首页
    2. 模板列表,单击【评分卡】信用卡消费分析下的从模板创建
    3. 新建实验对话框,配置参数(可以全部使用默认参数)。
      参数 描述
      名称 输入【评分卡】信用卡消费分析
      项目 不支持修改。
      描述 输入对于信用卡消费数据,进行评分卡分析
      位置 选择我的实验
    4. 单击确定
    5. 可选:等待大约十秒钟,在PAI-Studio控制台的左侧导航栏,单击实验
    6. 可选:我的实验下,单击【评分卡】信用卡消费分析_XX
      其中我的实验为已配置的实验位置【评分卡】信用卡消费分析_XX为已配置的实验名称_XX为系统自动添加的实验序号)。
    7. 系统根据预置的模板,自动构建实验,如下图所示。
      评分卡评分实验
      区域 描述
      将输入数据集拆分为训练数据集和预测数据集。
      分箱组件类似于One-Hot编码,可以根据数据分布将数据映射为高维度特征。以age字段为例,分箱组件可以根据数据在不同区间的分布进行分箱操作,其结果如下图所示。分箱示例实验运行完成后,您可以右键单击分箱-1,在快捷菜单,单击查看数据,即可查看每个字段均被分箱至多个区间中,如下图所示。分箱结果
      综合比较拆分前后及分箱结果的样本稳定程度,返回每个特征的PSI数值,如下图所示。样本稳定结果

      样本稳定指数是衡量样本变化所产生偏移量的重要指标,可以衡量样本的稳定程度。通常,如果变量的PSI值小于0.1,则表示样本变化不太显著。如果PSI值大于0.1且小于0.25,则表示样本变化比较显著。如果PSI值大于0.25,则表示样本变化比较剧烈,需要特殊关注。

      评分卡训练,其结果如下图所示。评分卡结果评分卡的精髓是使用符合业务标准的分数表示复杂的模型权重,其结果的关键参数如下:
      • intercepy:表示截距。
      • Unscaled:表示原始的权重值。
      • Scaled:分数更改指标。例如,对于pay_0特征,如果特征值在(-1,0]区间,则分数减29。如果特征值在(0,1]区间,则分数加27。
      • importance:每个特征对于结果的影响。数值越大,则影响越大。
      预测每个用户的信用评分并评估模型效果。
  3. 运行实验并查看输出结果。
    1. 单击画布上方的运行
    2. 实验运行结束后,右键单击画布中的评分卡预测-1,在快捷菜单,单击查看数据,即可查看每个用户的信用评分。信用评分