线性回归是数理统计中的回归分析方法,可以确定两种或两种以上变量之间相互依赖的定量关系。本文通过农业贷款的历史发放情况,使用该方法实现贷款发放预测。

背景信息

农业贷款发放问题是一个典型的数据挖掘问题。贷款发放人通过历史贷款数据(包括贷款人的年收入、种植作物种类及历史借贷信息等)构建经验模型,并预测受贷人的还款能力。
说明 本实验数据为虚构,仅供学习。

数据集

本实验的数据集包括如下字段。
字段名 类型 描述
id STRING 数据唯一标识符。
name STRING 用户名。
region STRING 用户所属地区,从北到南排列。
farmsize DOUBLE 土地面积。
rainfall DOUBLE 降雨量。
landquality DOUBLE 土地质量,该参数取值越大越好。
farmincome DOUBLE 年收入。
maincrop STRING 种植作物的种类。
claimtype STRING 贷款类型。
claimvalue DOUBLE 贷款金额。

基于回归算法预测农业贷款发放

  1. 进入PAI-Studio控制台。
    1. 登录PAI控制台
    2. 在左侧导航栏,选择模型开发和训练 > Studio-可视化建模
    3. PAI可视化建模页面,单击进入机器学习进入机器学习
  2. 构建实验。
    1. 在PAI-Studio控制台的左侧导航栏,单击首页
    2. 模板列表,单击农业贷款预测的回归算法实现下的从模板创建
    3. 新建实验对话框,配置参数(可以全部使用默认参数)。
      参数 描述
      名称 输入农业贷款预测的回归算法实现
      项目 不支持修改。
      描述 输入通过回归算法建立模型,预测农业贷款的发放
      位置 选择我的实验
    4. 单击确定
    5. 可选:等待大约十秒钟,在PAI-Studio控制台的左侧导航栏,单击实验
    6. 可选:我的实验下,单击农业贷款预测的回归算法实现_XX
      其中我的实验为已配置的实验位置农业贷款预测的回归算法实现_XX为已配置的实验名称_XX为系统自动添加的实验序号)。
    7. 系统根据预置的模板,自动构建实验,如下图所示。
      贷款发放实验
      区域 描述
      实验数据集,包括:
      • 贷款训练集:共二百余条历史贷款数据,包括farmsizerainfall等特征,用于训练回归模型。其中claimvalue表示贷款收回的金额。
      • 贷款预测集:共七十一人,指今年申请贷款者。其中claimvalue表示申请的贷款金额。
      本实验通过贷款训练集中的历史数据,预测为贷款预测集中的哪些申请人发放贷款。
      根据含义将字符串类型的数据映射为数字。以region字段为例,先将其中的northmiddlesouth按照从北到南的顺序分别映射为012,再将其转换为DOUBLE类型。
      首先使用线性回归组件对历史数据进行训练并生成回归模型。然后在预测组件中利用回归模型对预测数据集进行贷款发放预测。最后通过合并列组件将用户ID、预测值及申请的贷款值合并,结果如下图所示。预测结果其中prediction_score表示用户的还贷能力(预期可以归还的金额)。
      使用回归模型评估组件进行模型评估,评估指标如下所示。评估指标
      通过过滤与映射组件筛选可以获得贷款的用户。对于每个申请贷款人,如果预测获得该贷款人的还款能力大于其申请的贷款金额,则发放贷款。
  3. 运行实验并查看输出结果。
    1. 单击画布上方的运行
    2. 实验运行结束后,右键单击画布中的受贷人_过滤与映射,在快捷菜单,单击查看数据,即可查看可以为其发放贷款的用户。