混合云大数据离线处理数据展示
本文为您介绍将关系型数据库MySQL业务数据导入大数据平台MaxCompute,通过DataWorks一站式开发管理平台进行离线数据处理,基于Quick BI服务进行数据可视化展示,该实践可以帮助您快速分析业务数据,提升业务效率。
前提条件
部署云数据库RDS-MySQL服务或自行安装MySQL数据库做数据源。
背景信息
本实践适用于大数据计算MaxCompute、DataWorks、Quick BI基于企业版V3.12及以上版本。
本实践的使用场景:电商、电力、游戏等各行业MySQL数据集成到大数据平台,大数据SQL离线分析,BI数据可视化等场景。
本实践涉及的主要组件介绍:
大数据计算MaxCompute:是面向大数据处理的分布式系统,主要提供结构化数据的存储和计算,服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。MaxCompute为用户提供一种便捷的分析处理海量数据的手段。用户可以不必关心分布式计算细节,从而达到分析大数据的目的。
一站式开发平台DataWorks:为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务。一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。DataWorks支持离线同步、Shell、ODPSSQL、ODPS MR等多种节点类型,通过节点之间的相互依赖,对复杂的数据进行分析处理。DataWorks提供可视化的代码开发、工作流设计器页面,无需搭配任何开发工具,通过简单拖拽和开发,即可完成复杂的数据分析任务。
智能分析套件Quick BI:专为云上用户量身打造的新一代智能BI服务平台。Quick BI可以提供海量数据实时在线分析服务,支持拖拽式操作和丰富的可视化效果,帮助您轻松自如地完成数据分析、业务数据探查、报表制作等工作。
关系型数据库RDS(Relational DatabaseService):是一种稳定可靠、可弹性伸缩的在线数据库服务。基于阿里云分布式文件系统和SSD盘高性能存储,经过双十一高并发、大数据量的考验,拥有优良的性能。
方案架构
大数据离线处理展示流程图
使用DataWorks数据集成功能,将客户的关系型数据库MySQL数据对接导入到MaxCompute大数据平台,使用DataWorks一站式开发功能对数据进行处理后存储在MaxCompute数据库中,通过对接Quick BI服务进行可视化分析,创建不同维度的数据分析图,如用户地域分布图,不同产品和地区销量图等。
数据处理展示数据流程图

MySQL数据源创建两张表销售表sale和用户表user,表sale包含字段product(产品)、buyerid(购买者id)、amount(销售额),表user包含字段buyerid(购买者id)、address(地域)。
DataWorks数据处理会将表sale和user进行join操作,融合输出info表,表信息字段为product(产品)、buyerid(购买者id)、amount(销售额)和address(地域)。
数据可视化基于buyerid和address字段分析展示用户不同地域分布饼图,基于product、address和amount字段分析展示不同产品和地域的销量图。
操作步骤
准备MySQL数据源。
创建MySQL数据库作为数据源。
登录Apsara Uni-manager运营控制台,在顶部菜单栏,选择产品 > 数据库 > 云数据库RDS。

在页面右上角,单击创建实例。

创建MySQL数据库,完成后单击提交。

创建MySQL数据库和账号。
选择创建好的数据库实例,创建数据库。
在左侧导航栏,选择数据库管理,在页面右上方单击创建数据库。

输入信息后单击创建。

在左侧导航栏,选择账号管理,为创建的用户账号授权数据库,完成后单击创建。

单击页面右上方的登录数据库。

使用创建的账号登录数据库。

创建数据表插入数据。
创建数据表sale和user。

向数据库表sale和user中插入数据后执行。

查询数据表中的数据。

大数据平台准备。
创建大数据MaxCompute计算项目。
登录Apsara Uni-manager运营控制台,在顶部菜单栏,选择产品> 数据库 > 大数据计算MaxCompute。

创建计算资源配额组。
在左侧导航栏,选择配额组管理,单击创建配额组。然后在创建配额组管理页面输入配额组信息,完成后单击提交。

创建任务云账号。
在左侧导航栏,选择任务云账号,单击新建云账号。然后在弹出的对话框中输入云账号信息,单击确认。

创建Max Compute集群项目。
在Project管理页面,单击创建Max Compute集群。然后选择刚创建的配额组和任务云账号。

创建DataWorks工作空间。
登录Apsara Uni-manager运营控制台,在顶部菜单栏,选择产品 > 大数据 > DataWorks。

在左侧导航栏,选择全部产品 > 其他 > 组织管理。

在左侧导航栏,选择项目列表,单击创建工作空间。

关联MaxCompute项目。

创建工作空间业务流程。
在工作空间列表页面,单击进入工作区。

单击新建业务流程。

在弹出框的对话框中输入业务流程信息,单击新建。

MySQL数据导入到大数据平台。
创建数据源。
在左侧导航栏,选择全部产品 > 数据汇聚 > 数据集成。

在左侧导航栏,单击数据源管理,在页面右上方单击新增数据源。
选择MySQL并输入数据源信息,单击完成。


离线数据同步,将数据库数据集成到大数据平台ODPS数据库。
在左侧导航栏,选择数据集成 > 新建 > 离线同步。

数据来源选择新建的MySQL数据源,表选择sale表。数据去向选择ODPS数据源,数据库为默认。

单击一键生成目标表,修改表名即可一键生成目标表sale。

生成目标表之后可自动字段映射。

运行任务,将MySQL数据导入ODPS。

DataWorks进行数据开发处理。
数据表处理。
在左侧导航栏,选择数据开发 > 新建 > ODPS SQL。

执行如下SQL,创建新表info,包含以下字段,并将sale表和user表进行join后插入新表info。
CREATE TABLE IF NOT EXISTS info ( `product` STRINGCOMMENT'' ,`buyerid` BIGINTCOMMENT'' ,`amount` BIGINTCOMMENT'' ,`address` STRINGCOMMENT'' ) ; INSERT INTO info SELECT sale.product ,sale.buyerid ,sale.amount ,USER.address FROM sale JOIN USER WHERE sale.buyerid = USER.buyerid;查询数据表info。

数据可视化展示。
创建Quick BI数据服务并添加数据源和数据集。
登录Apsara Uni-Manager混合云管理平台,在顶部菜单栏,选择产品 > 大数据 > Quick BI。

单击数据源,查看数据可视化流程。

单击新建数据源,创建数据源。

添加MaxCompute数据源,输入显示名称、数据库地址、项目名称、AK、SK信息。
数据库地址和项目名称可在DataWorks数据源管理页面查看odps_first数据源信息。
AK、SK信息可在企业 > 组织管理,选择组织后获取。

输入获取的信息并进行连接测试。

连接测试通过后添加,可以查看到新增的数据源的数据表文件信息。
在数据集页面,单击新建数据集。

选择数据表sale、user、info。

创建数据集。
输入数据集名称及位置,单击确定。

查看数据集列表。

创建用户地域分布图。
在左侧导航栏,选择仪表盘,单击新建仪表盘。

将饼图拖至面板中,在右侧图表设计中,选择数据页签,选择info数据表。
在右侧图表设计中,选择样式页签,输入主标题。

在右侧图表设计中,选择数据页签,将buyerid拖至扇区角度/度量处,将address拖至扇区标签/维度处。
更新并保存后可在仪表盘页面查看用户地域分布图。

创建不同产品/地区销量图。
在左侧导航栏选择仪表盘,单击新建仪表盘。

将3个不同的线图拖至面板中。

在右侧图表设计中,选择样式页签,分别输入可视化面板标题,选择显示图表数据标签、线条样式等。

设置不同产品、地区销量图。
在右侧图表设计中,选择数据页签,将amount拖至值轴/度量处,将produce和address拖至类别轴/维度处,单击更新。

设置不同产品销量图。
在右侧图表设计中,选择数据页签,将amount拖至值轴/度量处,将produce拖至类别轴/维度处,单击更新。

设置不同地区销量图。
在右侧图表设计中,选择数据页签,将amount拖至值轴/度量处,将address拖至类别轴/维度处,单击更新。

设置完成后保存,可在仪表盘页面查看不同产品、地区销量图。
可通过预览和公开链接两种方式查看可视化图。选择预览查看可视化图。

可将可视化图公开并通过公开链接打开可视化图。
















































可通过预览和公开链接两种方式查看可视化图。
