全部产品
弹性计算 会员服务 网络 安全 移动云 数加·大数据分析及展现 数加·大数据应用 管理与监控 云通信 阿里云办公 培训与认证 智能硬件
存储与CDN 数据库 域名与网站(万网) 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 更多
阿里云机器学习

人口普查统计案例

更新时间:2018-05-02 15:08:03

背景

本文档场景如下:
通过一份人口普查数据,根据人物的年龄、工作类型、教育程度等属性,统计学历对收入的影响。主要目的是帮助用户学习阿里云机器学习实验的搭建流程和组件的使用方式。

数据集介绍

数据源: UCI开源数据集Adult 是针对美国某区域的一次人口普查结果,共32561条数据。具体字段如下表。

字段名 含义 类型
age 年龄 double
workclass 工作类型 string
fnlwgt 序号 string
education 教育程度 string
education_num 受教育时间 double
maritial_status 婚姻状况 string
occupation 职业 string
relationship 关系 string
race 种族 string
sex 性别 string
capital_gain 资本收益 string
capital_loss 资本损失 string
hours_per_week 每周工作小时数 double
native_country 原籍 string
income 收入 string

数据探索流程

在机器学习控制台首页,选择人口普查统计案例,单击从模板创建,如下图所示。

image

实验界面如下图所示。

image

  • 图中第一部分为组件区域。用户可以将其拖拽到中间的空白区域搭建实验。
  • 图中第二部分为实验区域。用户可以在此区域搭建实验。
  • 图中第三部分为组件配置区域。用户可以在此区域配置组件参数。

实验可以分为三部分,如下图所示。image

第一部分完成数据源准备,第二部分完成数据统计,第三部分完成学历对收入的影响统计。

1. 数据源准备

通过机器学习IDE或者tunnel命令行工具,将数据上传到MaxCompute上。通过读数据表组件(图中的数据源-人口统计)读取数据。完成后右键单击组件查看数据,如下图所示。

2. 数据统计

通过全表统计和数值分布统计结果(实验中的数据视图和直方图组件)可以判断一份数据是符合泊松分布还是高斯分布、是连续还是离散。
阿里云机器学习的每个组件都提供了可视化显示结果的功能,下图是数值统计的直方图组件的输出结果,可以清楚地看到每个输入数据的分布情况。

3. 学历对收入的影响统计

通过特征提取,使用机器学习算法计算得到哪些因素对收入的影响最大。本文档仅简单地针对不同学历人员的收入做统计,主要目的是介绍机器学习平台的使用方法。

  1. 数据预处理

    如下图所示,数据流入的第一个组件是SQL脚本组件,实现数据预处理的功能。本实验是将string类型的“income”字段转换成二值型的0和1的形式。0表示年收入在50K以下,1表示年收入在50K以上(这种将文本数据数值化是机器学习特征处理的常用方式)。

  2. 过滤与映射

    通过过滤与映射组件将数据按照学历分为三部分,分别是博士、硕士和学士,如下图所示。
    过滤与映射组件支持SQL语句,需要用户在右侧的配置栏填写where过滤条件。

  3. 结果统计

    通过百分位组件可以得到每个分类下的收入比例。下图是折线图的展示效果,可以看到年收入在50K以下(结果中为0的点)的人群占总人数的百分之25左右。

    结合三个百分位组件就可以得到如下图所示的结果。

    学历年收入大于50K的比例
    博士75%
    硕士57%
    学士42%

其它

请进入阿里云数加机器学习平台体验阿里云机器学习产品,并通过云栖社区公众号参与讨论。

本文导读目录