本文以人口普查数据为例,根据人物年龄、工作类型及教育程度等属性,快速构建学历对收入影响的统计模型。
数据集
本实验数据为UCI开源数据集Adult,详情请参见Adult Data Set。该数据集为某地域的人口普查结果,共32561条数据,具体的字段如下。
字段名 | 含义 | 类型 |
age | 年龄 | DOUBLE |
workclass | 工作类型 | STRING |
fnlwgt | 序号 | STRING |
education | 教育程度 | STRING |
education_num | 受教育时间 | DOUBLE |
maritial_status | 婚姻状况 | STRING |
occupation | 职业 | STRING |
relationship | 关系 | STRING |
capital_gain | 资本收益 | STRING |
capital_loss | 资本损失 | STRING |
hours_per_week | 每周工作小时数 | DOUBLE |
native_country | 原籍 | STRING |
income | 收入 | STRING |
统计学历对收入的影响
进入Designer页面。
登录PAI控制台。
在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应的工作空间。
在工作空间页面的左侧导航栏选择 ,进入Designer页面。
- 在可视化建模(Designer)页面右上方,单击前往旧版可视化建模(Studio)。
构建实验。
在原PAI-Studio控制台的左侧导航栏,单击首页。
在模板列表,单击人口普查统计案例下的从模板创建。
在新建实验对话框,配置参数(可以全部使用默认参数)。
参数
描述
名称
输入人口普查统计案例。
项目
不支持修改。
描述
输入结合人口普查数据搭建实验,统计学历和收入的关系。
位置
选择我的实验。
单击确定。
可选:等待大约十秒钟,在原PAI-Studio控制台的左侧导航栏,单击实验。
可选:在我的实验下,单击人口普查统计案例_XX。
其中我的实验为已配置的实验位置,人口普查统计案例_XX为已配置的实验名称(_XX为系统自动添加的实验序号)。
系统根据预置的模板,自动构建实验,如下图所示。
区域
描述
①
使用读数据表组件(数据源-人口统计)读取MaxCompute中的数据集。
②
通过全表统计和数值分布(数据视图和直方图组件)统计结果,可以判断数据是否符合泊松分布或高斯分布及数据为连续或离散数据。原PAI-Studio为组件提供了可视化显示结果的功能,实验运行完成后,您可以右键单击画布中的直方图(多字段)-1,在快捷菜单,单击查看分析报告,查看输入数据的分布情况,如下图所示。
③
统计学历对收入的影响:
数据预处理
通过SQL脚本组件,将STRING类型的income字段转换为二值型的0(表示年收入小于5万元)和1(表示年收入大于5万元)。
过滤与映射
通过过滤与映射组件将数据按照学历分为博士、硕士及学士。过滤与映射组件支持SQL语句,您可以结合实际需要配置过滤条件。例如,单击画布中的过滤-博士,在右侧字段设置面板,配置过滤条件为
education='Doctorate'
,即可过滤学历为博士的人员。统计结果
通过百分位组件可以获得每个分类对应的收入比例。
运行实验并查看输出结果。
单击画布上方的运行。
实验运行结束后,右键单击画布中的百分位-1,在快捷菜单,单击查看分析报告。
在百分位对话框,单击右上方的图标,即可查看博士收入分布的折线图。
如上图所示,博士年收入小于5万(折线图中取值为0的点)的比例约为25%。
说明通过拖动折线图下方的滑块,可以查看博士的整体收入分布。
参见以上步骤,分别查看硕士和学士的收入比例,汇总的结果如下。
学历
年收入大于5万的比例
博士
75%
硕士
56%
学士
42%