全部产品
弹性计算 会员服务 网络 安全 移动云 数加·大数据分析及展现 数加·大数据应用 管理与监控 云通信 阿里云办公 培训与认证 智能硬件
存储与CDN 数据库 域名与网站(万网) 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 更多
阿里云机器学习

回归算法做农业贷款发放预测

更新时间:2018-05-02 15:07:36

本文数据为虚构,仅供实验。

背景

农业贷款发放问题是一个典型的数据挖掘问题。贷款发放人通过往年的数据,包括贷款人的年收入、种植的作物种类、历史借贷信息等特征来构建经验模型,通过这个模型来预测受贷人的还款能力。
本文档根据真实的农业贷款业务场景,利用线性回归算法解决贷款发放业务。线性回归是利用数理统计中的回归分析方法,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。本文通过农业贷款的历史发放情况,预测是否给预测集的用户发放他们所需金额的贷款。

数据集介绍

具体字段如下表所示。

字段名 含义 类型 描述
id 数据唯一标识符 string
name 用户名 string
region 用户所属地区 string 从北到南排列
farmsize 拥有土地大小 double 土地面积
rainfall 降雨量 double 降雨量
landquality 土地质量 double 土地质量数值越大越好
farmincome 收入 double 年收入
maincrop 种植作物 string 种植作物的种类
claimtype 贷款类型 string 两种
claimvalue 贷款金额 double 贷款金额

数据截图如下。

数据探索流程

实验流程图如下。

1. 数据源准备

输入数据分为两部分:

  • 贷款训练集:共二百余条历史贷款数据,用来训练回归模型。包括“farmsize”、“rainfall”等特征,“claimvalue”是贷款收回的金额。
  • 贷款预测集:共七十一人,是今年申请贷款者,“claimvalue”是农民申请的贷款金额。

通过已有的二百余条历史数据,预测给七十一人中的哪些申请人发放贷款。

2. 数据预处理

根据含义将字符串类型的数据映射成数字。例如“region”字段,将其中的north、middle、south按照从北到南的顺序分别映射为0、1、2,再通过类型转换组件将字段转换成double类型,如下图所示。完成后即可进行模型训练。

3. 模型训练及预测

使用线性回归组件对历史数据进行训练并生成回归模型,在预测组件中利用回归模型对于预测集数据进行了预测。通过合并列组件将用户ID、预测值、申请的贷款值合并,结果如下图所示。
预测值表示的是用户的还贷能力(预期可以归还的金额)。

4. 回归模型评估

通过回归模型评估组件对模型进行评估,评估结果如下图所示。

5. 贷款发放

通过过滤与映射组件筛选出可以获得贷款的人。实验的原理是针对每个客户,如果贷款人被预测得到的还款能力大于他申请贷款的金额,就给他发放贷款。

其它

请进入阿里云数加机器学习平台体验阿里云机器学习产品,并通过云栖社区公众号参与讨论。

本文导读目录