本文以人口普查数据为例,根据人物年龄、工作类型及教育程度等属性,快速构建学历对收入影响的统计模型。

数据集

本实验数据为UCI开源数据集Adult,详情请参见Adult Data Set。该数据集为美国某区域的人口普查结果,共32561条数据,具体的字段如下。
字段名 含义 类型
age 年龄 DOUBLE
workclass 工作类型 STRING
fnlwgt 序号 STRING
education 教育程度 STRING
education_num 受教育时间 DOUBLE
maritial_status 婚姻状况 STRING
occupation 职业 STRING
relationship 关系 STRING
race 种族 STRING
sex 性别 STRING
capital_gain 资本收益 STRING
capital_loss 资本损失 STRING
hours_per_week 每周工作小时数 DOUBLE
native_country 原籍 STRING
income 收入 STRING

统计学历对收入的影响

  1. 进入PAI-Studio控制台。
    1. 登录PAI控制台
    2. 在左侧导航栏,选择模型开发和训练 > Studio-可视化建模
    3. PAI可视化建模页面,单击进入机器学习进入机器学习
  2. 构建实验。
    1. 在PAI-Studio控制台的左侧导航栏,单击首页
    2. 模板列表,单击人口普查统计案例下的从模板创建
    3. 新建实验对话框,配置参数(可以全部使用默认参数)。
      参数 描述
      名称 输入人口普查统计案例
      项目 不支持修改。
      描述 输入结合人口普查数据搭建实验,统计学历和收入的关系。
      位置 选择我的实验
    4. 单击确定
    5. 可选:等待大约十秒钟,在PAI-Studio控制台的左侧导航栏,单击实验
    6. 可选:我的实验下,单击人口普查统计案例_XX
      其中我的实验为已配置的实验位置人口普查统计案例_XX为已配置的实验名称_XX为系统自动添加的实验序号)。
    7. 系统根据预置的模板,自动构建实验,如下图所示。
      人口普查实验
      区域 描述
      使用读数据表组件(数据源-人口统计)读取MaxCompute中的数据集。
      通过全表统计和数值分布(数据视图直方图组件)统计结果,可以判断数据是否符合泊松分布或高斯分布及数据为连续或离散数据。PAI-Studio为组件提供了可视化显示结果的功能,实验运行完成后,您可以右键单击画布中的直方图(多字段)-1,在快捷菜单,单击查看分析报告,查看输入数据的分布情况,如下图所示。直方图结果
      统计学历对收入的影响:
      1. 数据预处理

        通过SQL脚本组件,将STRING类型的income字段转换为二值型的0(表示年收入小于5万元)和1(表示年收入大于5万元)。

      2. 过滤与映射

        通过过滤与映射组件将数据按照学历分为博士、硕士及学士。过滤与映射组件支持SQL语句,您可以结合实际需要配置过滤条件。例如,单击画布中的过滤-博士,在右侧IO/字段设置面板,配置过滤条件education='Doctorate',即可过滤学历为博士的人员。

      3. 统计结果

        通过百分位组件可以获得每个分类对应的收入比例。

  3. 运行实验并查看输出结果。
    1. 单击画布上方的运行
    2. 实验运行结束后,右键单击画布中的百分位-1,在快捷菜单,单击查看分析报告
    3. 百分位对话框,单击右上方的折线图图标图标,即可查看博士收入分布的折线图。
      博士收入比例如上图所示,博士年收入小于5万(折现图中取值为0的点)的比例约为25%。
      说明 通过拖动折线图下方的滑块,可以查看博士的整体收入分布。
    4. 参见以上步骤,分别查看硕士和学士的收入比例,汇总的结果如下。
      学历 年收入大于5万的比例
      博士 75%
      硕士 56%
      学士 42%