本案例指导您完成购房群体分析,帮助您掌握DataWorks的数据开发与数据分析流程。
案例介绍
本案例基于用户买房数据,分析不同群体的购房情况。通过DataWorks进行数据开发和数据分析。将本地数据通过DataWorks上传至MaxCompute的bank_data表,通过MaxCompute SQL任务节点分析用户群体,得到result_table表。基于result_table表做简单可视化展示分析,得到群体画像。
本案例基于模拟数据演示功能,实际应用中需要结合业务数据进行调整。
本案例的数据流转和数据开发的业务流程图如下所示。
完成数据分析之后,您将从购房数据中得到如下群体分析画像:贷款买房单身人士的受教育水平以university.degree和high.school为主。

准备工作
(可选)开通免费试用
开通DataWorks
创建工作空间
创建资源组并绑定工作空间
创建并绑定MaxCompute计算资源
操作步骤
在本案例中,您将通过DataWorks将本教程提供的测试数据上传至MaxCompute项目,并在DataWorks的数据开发中生成工作流,对测试数据进行基本的清洗和写入操作。同时,您还将对工作流进行调试运行,并通过SQL查询验证运行结果等操作。
一、新建表
上传测试数据前,通过DataWorks的数据目录在MaxCompute项目中创建用来存储上传数据的bank_data表。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的,在下拉框中选择对应工作空间后单击进入Data Studio。
在数据开发页面单击左侧导航栏的
按钮,进入数据目录页面。(可选)若您的MaxCompute项目未添加至数据目录,则需单击MaxCompute目录后的
按钮,进入DataWorks 数据源页签,将已添加为计算资源或数据源的MaxCompute项目,添加至MaxCompute目录下。单击打开MaxCompute目录,选择需要创建MaxCompute计算资源的项目,在表文件夹下创建MaxCompute表。
说明若您的MaxCompute开启了schema,则需在选择创建MaxCompute计算资源的项目后,打开目标schema后,才可在表文件夹下创建MaxCompute表。
本示例以标准模式工作空间为例,且仅在开发环境调试,所以仅需在开发环境对应的MaxCompute项目下创建
bank_data表,若您使用的是简单模式工作空间,则只需在生产环境对应的MaxCompute项目下创建bank_data表即可。
单击表目录右侧的
按钮,添加并进入创建表的编辑页面。在表编辑页面右侧DDL模块键入以下SQL代码,系统将自动生成所有表信息。
CREATE TABLE IF NOT EXISTS bank_data ( age BIGINT COMMENT '年龄', job STRING COMMENT '工作类型', marital STRING COMMENT '婚否', education STRING COMMENT '教育程度', `default` STRING COMMENT '是否有信用卡', housing STRING COMMENT '房贷', loan STRING COMMENT '贷款', contact STRING COMMENT '联系途径', month STRING COMMENT '月份', day_of_week STRING COMMENT '星期几', duration STRING COMMENT '持续时间', campaign BIGINT COMMENT '本次活动联系的次数', pdays DOUBLE COMMENT '与上一次联系的时间间隔', previous DOUBLE COMMENT '之前与客户联系的次数', poutcome STRING COMMENT '之前市场活动的结果', emp_var_rate DOUBLE COMMENT '就业变化速率', cons_price_idx DOUBLE COMMENT '消费者物价指数', cons_conf_idx DOUBLE COMMENT '消费者信心指数', euribor3m DOUBLE COMMENT '欧元存款利率', nr_employed DOUBLE COMMENT '职工人数', y BIGINT COMMENT '是否有定期存款' );在编辑页面,单击发布按钮,在开发环境对应MaxCompute项目中创建
bank_data表。完成
bank_data表创建后,即可在数据目录下单击表名,查看表的详细信息。
二、上传数据
下载banking.csv文件至本地,通过DataWorks的使用限制功能将文件上传至MaxCompute项目创建的bank_data中。
进行文件上传前,须保证已为数据上传功能指定调度资源组与数据集成资源组,详情可参见数据上传使用限制。
单击左上角
图标,在弹出页面中单击,进入上传与下载页面。单击最近上传模块的数据上传按钮,进入数据上传配置页面,可参考以下配置。
参数
描述
数据来源
本地文件。
指定待上传数据
选择文件
上传已下载至本地的
banking.csv文件。设置目标表
目标引擎
MaxCompute
MaxCompute项目名称
选择
bank_data表所在的MaxCompute项目。选择目标表
选择
bank_data表作为目标表。上传文件数据预览
单击按顺序映射,完成文件数据与
bank_data表字段映射。说明本地文件支持上传
.csv,.xls,.xlsx,.json类型的文件。表格文件默认上传文件的第一个Sheet。
.csv文件最大支持5GB,其他文件最大支持100MB。
单击数据上传,将下载的CSV文件内的数据上传至MaxCompute计算资源内的
bank_data表中。确认数据上传成功。
在数据上传成功后,您可通过SQL查询(旧版)来确认
bank_data表中是否已写入数据。单击左上角
图标,在弹出页面中单击。在我的文件后单击,自定义文件名后单击确定。
在SQL查询页面,配置如下SQL。
SELECT * FROM bank_data limit 10;在右上角选择
bank_data表所在的工作空间和MaxCompute数据源后单击确定。说明本示例以标准模式工作空间为例,且
bank_data表仅在开发环境创建,选择数据源时,必须选择开发环境的MaxCompute数据源。若您使用的是简单模式工作空间,选择生产环境的MaxCompute数据源即可。单击顶部的运行按钮,在成本预估页面,单击运行,运行成功之后,在页面下方您将获得bank_data的前10条记录。此时,表示您成功上传本地数据至bank_data表。

三、加工数据
使用MaxCompute SQL节点将上传至bank_data表的数据进行过滤,获得单身人士贷款买房的受教育水平分布数量数据,并将数据写入新的result_table表中。
搭建数据加工链路
单击左上方的
图标,选择,进入数据开发页面。在页面顶部切换至本教程创建好的工作空间,在左侧导航栏单击
,进入数据开发。在项目目录区域,单击
,选择新建工作流,设置工作流名称,本教程设置为dw_basic_case,单击确认保存工作流,进入工作流编排页面。进入工作流编排页面后,从左侧拖拽虚拟节点和MaxCompute SQL节点至画布中,分别设置节点名称。
本教程节点名称示例及作用如下:
节点类型
节点名称
节点作用
虚拟节点workshop_start用于统筹管理整个购房群体分析简单教程,可使数据流转路径更清晰。该节点为空跑任务,无须编辑代码。
MaxCompute SQLddl_result_table用于创建result_table,用来写入清洗后的bank_data表数据。
MaxCompute SQLinsert_result_table用于将bank_data数据进行过滤后写入result_table表。
手动拖拽连线,配置各节点的上游节点。最终效果如下:

在节点工具栏单击保存。
配置数据加工节点
四、调试运行
工作流配置完成后,需要您在dw_basic_case工作流编排页面,单击
按钮,调试运行整个工作流,验证工作流是否可以正常运行。若运行失败,则可根据调试运行日志进行排查。

五、数据查询与展示
您已经将上传至MaxCompute计算资源的数据,经过数据开发处理,在SQL查询(旧版)中可查询result_table数据,并且进行分析。
单击左上角
图标,在弹出页面中单击。在我的文件后单击,自定义文件名后单击确定。
在SQL查询页面,配置如下SQL。
SELECT * FROM result_table;在右上角选择
result_table表所在的工作空间和MaxCompute数据源后单击确定。说明本示例以标准模式工作空间为例,且
result_table表仅在开发环境创建,未发布至生产环境,所以选择数据源时,必须选择开发环境的MaxCompute数据源。若您使用的是简单模式工作空间,选择生产环境的MaxCompute数据源即可。单击顶部的运行按钮,在成本预估页面,单击运行。
在查询结果中单击
,查看可视化图表结果,您可以单击图表右上角的
自定义图表样式。自定义图表样式的更多信息,请参见可视化卡片和报告。说明在可视化卡片和报告中,您可通过将系统默认的分组柱状图更换为饼图。
您也可以单击图表右上角保存,将图表保存为卡片,然后在左侧导航栏单击卡片(
)查看。

