本案例指导您完成购房群体分析,帮助您掌握DataWorks的数据开发与数据分析流程。
案例介绍
本案例基于用户买房数据,分析不同群体的购房情况。通过DataWorks进行数据开发和数据分析。将本地数据通过DataWorks上传至MaxCompute的bank_data
表,通过MaxCompute SQL任务节点分析用户群体,得到result_table
表。基于result_table
表做简单可视化展示分析,得到群体画像。
本案例基于模拟数据演示功能,实际应用中需要结合业务数据进行调整。
本案例的数据流转和数据开发的业务流程图如下所示。
完成数据分析之后,您将从购房数据中得到如下群体分析画像:贷款买房单身人士的受教育水平以university.degree
和high.school
为主。
准备工作
操作步骤
在本案例中,您将通过DataWorks将本教程提供的测试数据上传至MaxCompute项目,并在DataWorks的数据开发中生成工作流,对测试数据进行基本的清洗和写入操作。同时,您还将对工作流进行调试运行,并通过SQL查询验证运行结果等操作。
步骤一:新建表
上传测试数据前,通过DataWorks的数据目录为在MaxCompute项目中创建用来存储上传数据的bank_data
表。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入Data Studio。
在数据开发页面单击左侧导航栏的
按钮,进入数据目录页面。
(可选)若您的MaxCompute项目未添加至数据目录,则需单击MaxCompute目录后的
按钮,进入DataWorks 数据源页签,将已添加为计算资源或数据源的MaxCompute项目,添加至MaxCompute目录下。
单击打开MaxCompute目录,选择需要创建MaxCompute计算资源的项目,在表文件夹下创建MaxCompute表。
若您的MaxCompute开启了schema,则需在选择创建MaxCompute计算资源的项目后,打开目标schema后,才可在表文件夹下创建MaxCompute表。
本示例以标准模式工作空间为例,且仅在开发环境调试,所以仅需在开发环境对应的MaxCompute项目下创建
bank_data
表,若您使用的是简单模式工作空间,则只需在生产环境对应的MaxCompute项目下创建bank_data
表即可。
单击表目录右侧的
按钮,添加并进入创建表的编辑页面。
在表编辑页面右侧DDL模块键入以下SQL代码,系统将自动生成所有表信息。
CREATE TABLE IF NOT EXISTS bank_data ( age BIGINT COMMENT '年龄', job STRING COMMENT '工作类型', marital STRING COMMENT '婚否', education STRING COMMENT '教育程度', default STRING COMMENT '是否有信用卡', housing STRING COMMENT '房贷', loan STRING COMMENT '贷款', contact STRING COMMENT '联系途径', month STRING COMMENT '月份', day_of_week STRING COMMENT '星期几', duration STRING COMMENT '持续时间', campaign BIGINT COMMENT '本次活动联系的次数', pdays DOUBLE COMMENT '与上一次联系的时间间隔', previous DOUBLE COMMENT '之前与客户联系的次数', poutcome STRING COMMENT '之前市场活动的结果', emp_var_rate DOUBLE COMMENT '就业变化速率', cons_price_idx DOUBLE COMMENT '消费者物价指数', cons_conf_idx DOUBLE COMMENT '消费者信心指数', euribor3m DOUBLE COMMENT '欧元存款利率', nr_employed DOUBLE COMMENT '职工人数', y BIGINT COMMENT '是否有定期存款' );
在编辑页面,单击发布按钮,在开发环境对应MaxCompute项目中创建
bank_data
表。完成
bank_data
表创建后,即可在数据目录下单击表名,查看表的详细信息。
步骤二:上传数据
下载banking.csv文件至本地,通过DataWorks的使用限制功能将文件上传至MaxCompute项目创建的bank_data
中。
进行文件上传前,须保证已为数据上传功能指定调度资源组与数据集成资源组,详情可参见数据上传使用限制。
单击左上角
图标,在弹出页面中单击 ,进入上传与下载页面。
单击最近上传模块的数据上传按钮,进入数据上传配置页面,可参考以下配置。
参数
描述
参数
描述
数据来源
本地文件。
指定待上传数据
选择文件
上传已下载至本地的
banking.csv
文件。设置目标表
目标引擎
MaxCompute
MaxCompute项目名称
选择
bank_data
表所在的MaxCompute项目。选择目标表
选择
bank_data
表作为目标表。上传文件数据预览
单击按顺序映射,完成文件数据与
bank_data
表字段映射。本地文件支持上传
.csv
,.xls
,.xlsx
,.json
类型的文件。表格文件默认上传文件的第一个Sheet。
.csv
文件最大支持5GB,其他文件最大支持100MB。
单击数据上传,将下载的CSV文件内的数据上传至MaxCompute计算资源内的
bank_data
表中。确认数据上传成功。
在数据上传成功后,您可在通过SQL查询来确认
bank_data
表中是否已写入数据。单击左上角
图标,在弹出页面中单击 。
在我的文件后单击
,自定义文件名后单击确定。在SQL查询页面,配置如下SQL。
SELECT * FROM bank_data limit 10;
在右上角选择
bank_data
表所在的工作空间和MaxCompute数据源后单击确定。本示例以标准模式工作空间为例,且
bank_data
表仅在开发环境创建,选择数据源时,必须选择开发环境的MaxCompute数据源。若您使用的是简单模式工作空间,选择生产环境的MaxCompute数据源即可。单击顶部的运行按钮,在成本预估页面,单击运行,运行成功之后,在页面下方您将获得bank_data的前10条记录。此时,表示您成功上传本地数据至bank_data表。
步骤三:加工数据
使用MaxCompute SQL节点将上传至bank_data
表进行过滤,获得单身人士贷款买房的受教育水平分布数量数据,并将数据写入处新的result_table
表中。
搭建数据加工链路
单击左上方的
图标,选择 ,进入数据开发页面。
在页面顶部切换至本教程创建好的工作空间,在左侧导航栏单击
,进入数据开发。
在项目目录区域,单击
,选择新建工作流,设置工作流名称,本教程设置为
dw_basic_case
,单击确认保存工作流,进入工作流编辑页面。进入工作流编辑页面后,从左侧拖拽虚拟节点和MaxCompute SQL节点至画布中,分别设置节点名称。
本教程节点名称示例及作用如下:
节点类型
节点名称
节点作用
节点类型
节点名称
节点作用
虚拟节点
workshop_start
用于统筹管理整个购房群体分析简单教程,可使数据流转路径更清晰。该节点为空跑任务,无须编辑代码。
MaxCompute SQL
ddl_result_table
用于创建result_table,用来写入清洗后的bank_data表数据。
MaxCompute SQL
insert_result_table
用于将bank_data数据进行过滤后写入result_table表
手动拖拽连线,配置各节点的上游节点。最终效果如下:
在节点工具栏单击保存。
配置数据加工节点
步骤四:调试运行
工作流配置完成后,您可在Data Studio页面运行调试运行整个工作流,验证工作流的配置是否正确,您需重新进入dw_basic_case
工作流页面。
完成工作流内的节点开发后,需切换至工作流编辑页面,单击工具栏的保存按钮,保存工作流。
完成工作流保存后,在工作流页面,单击节点工具栏的运行,对工作流进行调试运行。
等待运行完成,预期运行结果如下:
步骤五:数据查询与展示
您已经将上传至MaxCompute计算资源的数据,经过数据开发处理,现在可查询表数据,查看数据分析后的结果。
单击左上角
图标,在弹出页面中单击 。
在我的文件后单击
,自定义文件名后单击确定。在SQL查询页面,配置如下SQL。
SELECT * FROM result_table;
在右上角选择
result_table
表所在的工作空间和MaxCompute数据源后单击确定。本示例以标准模式工作空间为例,且
result_table
表仅在开发环境创建,未发布至生产环境,所以选择数据源时,必须选择开发环境的MaxCompute数据源。若您使用的是简单模式工作空间,选择生产环境的MaxCompute数据源即可。单击顶部的运行按钮,在成本预估页面,单击运行。
在查询结果中单击
,查看可视化图表结果,您可以单击图表右上角的
自定义图表样式。自定义图表样式的更多信息,请参见增强分析(卡片和报告)。
在增强分析(卡片和报告)中,您可通过 将系统默认的分组柱状图更换为饼图。
您也可以单击图表右上角保存,将图表保存为卡片,然后在左侧导航栏单击卡片(
)查看。
下一步
- 本页导读 (1)
- 案例介绍
- 准备工作
- 开通DataWorks
- 创建工作空间
- 创建资源组并绑定工作空间
- 创建并绑定MaxCompute计算资源
- 操作步骤
- 步骤一:新建表
- 步骤二:上传数据
- 步骤三:加工数据
- 步骤四:调试运行
- 步骤五:数据查询与展示
- 下一步
- 附录:资源释放与清理