文档

人口普查统计案例(旧版)

更新时间:

本文以人口普查数据为例,根据人物年龄、工作类型及教育程度等属性,快速构建学历对收入影响的统计模型。

数据集

本实验数据为UCI开源数据集Adult,详情请参见Adult Data Set。该数据集为某地域的人口普查结果,共32561条数据,具体的字段如下。

字段名

含义

类型

age

年龄

DOUBLE

workclass

工作类型

STRING

fnlwgt

序号

STRING

education

教育程度

STRING

education_num

受教育时间

DOUBLE

maritial_status

婚姻状况

STRING

occupation

职业

STRING

relationship

关系

STRING

capital_gain

资本收益

STRING

capital_loss

资本损失

STRING

hours_per_week

每周工作小时数

DOUBLE

native_country

原籍

STRING

income

收入

STRING

统计学历对收入的影响

  1. 进入PAI-Designer页面。

    1. 登录PAI控制台

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

    3. 在工作空间页面的左侧导航栏选择模型开发与训练 > 可视化建模(Designer),进入Designer页面。

  2. 可视化建模(Designer)页面右上方,单击前往旧版可视化建模(Studio)
  3. 构建实验。

    1. 在原PAI-Studio控制台的左侧导航栏,单击首页

    2. 模板列表,单击人口普查统计案例下的从模板创建

    3. 新建实验对话框,配置参数(可以全部使用默认参数)。

      参数

      描述

      名称

      输入人口普查统计案例

      项目

      不支持修改。

      描述

      输入结合人口普查数据搭建实验,统计学历和收入的关系。

      位置

      选择我的实验

    4. 单击确定

    5. 可选:等待大约十秒钟,在原PAI-Studio控制台的左侧导航栏,单击实验

    6. 可选:我的实验下,单击人口普查统计案例_XX

      其中我的实验为已配置的实验位置人口普查统计案例_XX为已配置的实验名称_XX为系统自动添加的实验序号)。

    7. 系统根据预置的模板,自动构建实验,如下图所示。

      人口普查实验

      区域

      描述

      使用读数据表组件(数据源-人口统计)读取MaxCompute中的数据集。

      通过全表统计和数值分布(数据视图直方图组件)统计结果,可以判断数据是否符合泊松分布或高斯分布及数据为连续或离散数据。原PAI-Studio为组件提供了可视化显示结果的功能,实验运行完成后,您可以右键单击画布中的直方图(多字段)-1,在快捷菜单,单击查看分析报告,查看输入数据的分布情况,如下图所示。直方图结果

      统计学历对收入的影响:

      1. 数据预处理

        通过SQL脚本组件,将STRING类型的income字段转换为二值型的0(表示年收入小于5万元)和1(表示年收入大于5万元)。

      2. 过滤与映射

        通过过滤与映射组件将数据按照学历分为博士、硕士及学士。过滤与映射组件支持SQL语句,您可以结合实际需要配置过滤条件。例如,单击画布中的过滤-博士,在右侧字段设置面板,配置过滤条件education='Doctorate',即可过滤学历为博士的人员。

      3. 统计结果

        通过百分位组件可以获得每个分类对应的收入比例。

  4. 运行实验并查看输出结果。

    1. 单击画布上方的运行

    2. 实验运行结束后,右键单击画布中的百分位-1,在快捷菜单,单击查看分析报告

    3. 百分位对话框,单击右上方的折线图图标图标,即可查看博士收入分布的折线图。

      博士收入比例如上图所示,博士年收入小于5万(折线图中取值为0的点)的比例约为25%。

      说明

      通过拖动折线图下方的滑块,可以查看博士的整体收入分布。

    4. 参见以上步骤,分别查看硕士和学士的收入比例,汇总的结果如下。

      学历

      年收入大于5万的比例

      博士

      75%

      硕士

      56%

      学士

      42%

  • 本页导读 (1)
文档反馈