本文基于信用卡消费记录,为您介绍如何通过PAI提供的金融组件,构建评分卡建模方案。
背景信息
评分卡是信用风险评估和互联网金融领域常用的建模方法,并不简单对应于某种机器学习算法,而是一种通用建模框架。其原理是先将分箱后的原始数据进行特征工程变换,再使用线性模型建模。
评分卡建模理论通常适用于信用评估领域,例如信用卡风险评估和贷款发放业务。在其它领域,评分卡建模也可以作为分数评估,例如客服质量打分和芝麻信用打分。
前提条件
数据集
本工作流使用国外某机构开源的数据集(下载数据集),共30000条。该数据集中包含用户的性别、教育、婚姻、年龄、历史信用卡消费情况及信用卡账单情况。
其中payment_next_month为目标队列,表示用户是否偿还信用卡账单。其中:
1表示已偿还账单。
0表示未偿还账单。
评分卡信用评分
进入Designer页面。
登录PAI控制台。
在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。
在工作空间页面的左侧导航栏选择 ,进入Designer页面。
构建工作流。
在Designer页面,单击预置模板页签。
在预置模板页面中,单击基于评分卡的信用卡消费分析下的创建。
在新建工作流对话框,配置参数(可以全部使用默认参数)。
其中:工作流数据存储配置为OSS Bucket路径,用于存储工作流运行中产出的临时数据和模型。
单击确定。
您需要等待大约十秒钟,工作流可以创建成功。
在工作流列表,双击基于评分卡的信用卡消费分析,进入工作流。
系统根据预置的模板,自动构建工作流,如下图所示。
区域
描述
①
将输入数据集拆分为训练数据集和预测数据集。
②
分箱组件类似于One-Hot编码,可以根据数据分布将数据映射为高维度特征。以age字段为例,分箱组件可以根据数据在不同区间的分布进行分箱操作。工作流运行完成后,您可以右键单击分箱-1组件,选择我要分箱。在分箱-1配置面板中单击名称(age)进行查看。其结果如下图所示。工作流运行完成后,您可以右键单击分箱-1组件,在快捷菜单,选择 ,即可查看每个字段均被分箱至多个区间中,如下图所示。
③
综合比较拆分前后及分箱结果的样本稳定程度,返回每个特征的PSI数值。工作流运行完成后,您可以右键单击样本稳定指数(PSI)-1,选择
进行查看。如下图所示。样本稳定指数是衡量样本变化所产生偏移量的重要指标,可以衡量样本的稳定程度。将特征每行对应的PSI值求和,即为该特征总的PSI值。通常,如果变量的PSI值小于0.1,则表示样本变化不太显著。如果PSI值大于0.1且小于0.25,则表示样本变化比较显著。如果PSI值大于0.25,则表示样本变化比较剧烈,需要特殊关注。
④
评分卡训练。工作流运行完成后,您可以右键单击评分卡训练-1组件,选择
查看训练结果。如下图所示。评分卡的精髓是使用符合业务标准的分数表示复杂的模型权重,其结果的关键参数如下:weight:表示原始的权重值。
Scaled_weight:分数更改指标。例如,对于pay_0特征,如果特征值在(-1,0]区间,则分数减29。如果特征值在(0,1]区间,则分数加27。
contribution:每个特征对于结果的影响。数值越大,则影响越大。
⑤
预测每个用户的信用评分并评估模型效果。
运行工作流并查看输出结果。
单击画布上方的运行按钮。
工作流运行结束后,右键单击画布中的评分卡预测-1,在快捷菜单,单击 ,即可查看每个用户的信用评分。
相关文档
关于算法组件更详细的内容介绍,请参见: