文档

评分卡信用评分

更新时间:

本文基于信用卡消费记录,为您介绍如何通过PAI提供的金融组件,构建评分卡建模方案。

背景信息

评分卡是信用风险评估和互联网金融领域常用的建模方法,并不简单对应于某种机器学习算法,而是一种通用建模框架。其原理是先将分箱后的原始数据进行特征工程变换,再使用线性模型建模。

评分卡建模理论通常适用于信用评估领域,例如信用卡风险评估和贷款发放业务。在其它领域,评分卡建模也可以作为分数评估,例如客服质量打分和芝麻信用打分。

前提条件

数据集

本工作流使用国外某机构开源的数据集(下载数据集),共30000条。该数据集中包含用户的性别、教育、婚姻、年龄、历史信用卡消费情况及信用卡账单情况。

其中payment_next_month为目标队列,表示用户是否偿还信用卡账单。其中:

  • 1表示已偿还账单。

  • 0表示未偿还账单。

评分卡信用评分

  1. 进入Designer页面。

    1. 登录PAI控制台

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

    3. 在工作空间页面的左侧导航栏选择模型开发与训练 > 可视化建模(Designer),进入Designer页面。

  2. 构建工作流。

    1. Designer页面,单击预置模板页签。

    2. 在预置模板页面中,单击基于评分卡的信用卡消费分析下的创建

    3. 新建工作流对话框,配置参数(可以全部使用默认参数)。

      其中:工作流数据存储配置为OSS Bucket路径,用于存储工作流运行中产出的临时数据和模型。

    4. 单击确定

      您需要等待大约十秒钟,工作流可以创建成功。

    5. 在工作流列表,双击基于评分卡的信用卡消费分析,进入工作流。

    6. 系统根据预置的模板,自动构建工作流,如下图所示。

      image.png

      区域

      描述

      将输入数据集拆分为训练数据集和预测数据集。

      分箱组件类似于One-Hot编码,可以根据数据分布将数据映射为高维度特征。以age字段为例,分箱组件可以根据数据在不同区间的分布进行分箱操作。工作流运行完成后,您可以右键单击分箱-1组件,选择我要分箱。在分箱-1配置面板中单击名称(age)进行查看。其结果如下图所示。image.png工作流运行完成后,您可以右键单击分箱-1组件,在快捷菜单,选择查看数据 > 分箱结果输出,即可查看每个字段均被分箱至多个区间中,如下图所示。分箱结果

      综合比较拆分前后及分箱结果的样本稳定程度,返回每个特征的PSI数值。工作流运行完成后,您可以右键单击样本稳定指数(PSI)-1,选择查看数据 > 输出进行查看。如下图所示。PSI

      样本稳定指数是衡量样本变化所产生偏移量的重要指标,可以衡量样本的稳定程度。将特征每行对应的PSI值求和,即为该特征总的PSI值。通常,如果变量的PSI值小于0.1,则表示样本变化不太显著。如果PSI值大于0.1且小于0.25,则表示样本变化比较显著。如果PSI值大于0.25,则表示样本变化比较剧烈,需要特殊关注。

      评分卡训练。工作流运行完成后,您可以右键单击评分卡训练-1组件,选择查看数据 > 训练结果输出表查看训练结果。如下图所示。评分卡结果评分卡的精髓是使用符合业务标准的分数表示复杂的模型权重,其结果的关键参数如下:

      • weight:表示原始的权重值。

      • Scaled_weight:分数更改指标。例如,对于pay_0特征,如果特征值在(-1,0]区间,则分数减29。如果特征值在(0,1]区间,则分数加27。

      • contribution:每个特征对于结果的影响。数值越大,则影响越大。

      预测每个用户的信用评分并评估模型效果。

  3. 运行工作流并查看输出结果。

    1. 单击画布上方的运行按钮image.png

    2. 工作流运行结束后,右键单击画布中的评分卡预测-1,在快捷菜单,单击查看数据 > 输出,即可查看每个用户的信用评分。信用评分

相关文档

关于算法组件更详细的内容介绍,请参见:

  • 本页导读 (1)
文档反馈