混合云大数据离线处理数据展示

更新时间:
复制为 MD 格式

本文为您介绍将关系型数据库MySQL业务数据导入大数据平台MaxCompute,通过DataWorks一站式开发管理平台进行离线数据处理,基于Quick BI服务进行数据可视化展示,该实践可以帮助您快速分析业务数据,提升业务效率。

前提条件

部署云数据库RDS-MySQL服务或自行安装MySQL数据库做数据源。

背景信息

本实践适用于大数据计算MaxCompute、DataWorks、Quick BI基于企业版V3.12及以上版本。

本实践的使用场景:电商、电力、游戏等各行业MySQL数据集成到大数据平台,大数据SQL离线分析,BI数据可视化等场景。

本实践涉及的主要组件介绍:

  • 大数据计算MaxCompute:是面向大数据处理的分布式系统,主要提供结构化数据的存储和计算,服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。MaxCompute为用户提供一种便捷的分析处理海量数据的手段。用户可以不必关心分布式计算细节,从而达到分析大数据的目的。

  • 一站式开发平台DataWorks:为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务。一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。DataWorks支持离线同步、Shell、ODPSSQL、ODPS MR等多种节点类型,通过节点之间的相互依赖,对复杂的数据进行分析处理。DataWorks提供可视化的代码开发、工作流设计器页面,无需搭配任何开发工具,通过简单拖拽和开发,即可完成复杂的数据分析任务。

  • 智能分析套件Quick BI:专为云上用户量身打造的新一代智能BI服务平台。Quick BI可以提供海量数据实时在线分析服务,支持拖拽式操作和丰富的可视化效果,帮助您轻松自如地完成数据分析、业务数据探查、报表制作等工作。

  • 关系型数据库RDS(Relational DatabaseService):是一种稳定可靠、可弹性伸缩的在线数据库服务。基于阿里云分布式文件系统和SSD盘高性能存储,经过双十一高并发、大数据量的考验,拥有优良的性能。

方案架构

大数据离线处理展示流程图

1使用DataWorks数据集成功能,将客户的关系型数据库MySQL数据对接导入到MaxCompute大数据平台,使用DataWorks一站式开发功能对数据进行处理后存储在MaxCompute数据库中,通过对接Quick BI服务进行可视化分析,创建不同维度的数据分析图,如用户地域分布图,不同产品和地区销量图等。

数据处理展示数据流程图

1
  • MySQL数据源创建两张表销售表sale和用户表user,表sale包含字段product(产品)、buyerid(购买者id)、amount(销售额),表user包含字段buyerid(购买者id)、address(地域)。

  • DataWorks数据处理会将表saleuser进行join操作,融合输出info表,表信息字段为product(产品)、buyerid(购买者id)、amount(销售额)和address(地域)。

  • 数据可视化基于buyeridaddress字段分析展示用户不同地域分布饼图,基于product、addressamount字段分析展示不同产品和地域的销量图。

操作步骤

  1. 准备MySQL数据源。

    1. 创建MySQL数据库作为数据源。

      1. 登录Apsara Uni-manager运营控制台,在顶部菜单栏,选择产品 > 数据库 > 云数据库RDS1

      2. 在页面右上角,单击创建实例1

      3. 创建MySQL数据库,完成后单击提交1

    2. 创建MySQL数据库和账号。

      1. 选择创建好的数据库实例,创建数据库。

      2. 在左侧导航栏,选择数据库管理,在页面右上方单击创建数据库1

      3. 输入信息后单击创建1

      4. 在左侧导航栏,选择账号管理,为创建的用户账号授权数据库,完成后单击创建1

      5. 单击页面右上方的登录数据库1

      6. 使用创建的账号登录数据库。1

    3. 创建数据表插入数据。

      1. 创建数据表saleuser。1

      2. 向数据库表saleuser中插入数据后执行。1

      3. 查询数据表中的数据。1

  2. 大数据平台准备。

    1. 创建大数据MaxCompute计算项目。

      1. 登录Apsara Uni-manager运营控制台,在顶部菜单栏,选择产品> 数据库 > 大数据计算MaxCompute1

      2. 创建计算资源配额组。

        在左侧导航栏,选择配额组管理,单击创建配额组。然后在创建配额组管理页面输入配额组信息,完成后单击提交1

      3. 创建任务云账号。

        在左侧导航栏,选择任务云账号,单击新建云账号。然后在弹出的对话框中输入云账号信息,单击确认1

      4. 创建Max Compute集群项目。

        Project管理页面,单击创建Max Compute集群。然后选择刚创建的配额组和任务云账号。1

    2. 创建DataWorks工作空间。

      1. 登录Apsara Uni-manager运营控制台,在顶部菜单栏,选择产品 > 大数据 > DataWorks1

      2. 在左侧导航栏,选择全部产品 > 其他 > 组织管理1

      3. 在左侧导航栏,选择项目列表,单击创建工作空间1

      4. 关联MaxCompute项目。1

    3. 创建工作空间业务流程。

      1. 工作空间列表页面,单击进入工作区1

      2. 单击新建业务流程1

      3. 在弹出框的对话框中输入业务流程信息,单击新建1

  3. MySQL数据导入到大数据平台。

    1. 创建数据源。

      1. 在左侧导航栏,选择全部产品 > 数据汇聚 > 数据集成1

      2. 在左侧导航栏,单击数据源管理,在页面右上方单击新增数据源

        选择MySQL并输入数据源信息,单击完成11

    2. 离线数据同步,将数据库数据集成到大数据平台ODPS数据库。

      1. 在左侧导航栏,选择数据集成 > 新建 > 离线同步1

      2. 数据来源选择新建的MySQL数据源,表选择sale表。数据去向选择ODPS数据源,数据库为默认。1

      3. 单击一键生成目标表,修改表名即可一键生成目标表sale。1

      4. 生成目标表之后可自动字段映射。1

      5. 运行任务,将MySQL数据导入ODPS。1

  4. DataWorks进行数据开发处理。

    1. 数据表处理。

      1. 在左侧导航栏,选择数据开发 > 新建 > ODPS SQL1

      2. 执行如下SQL,创建新表info,包含以下字段,并将sale表和user表进行join后插入新表info。

        CREATE TABLE IF NOT EXISTS info
         (
        `product` STRINGCOMMENT''
        ,`buyerid` BIGINTCOMMENT''
        ,`amount` BIGINTCOMMENT''
        ,`address` STRINGCOMMENT''
        )
        ;
        INSERT INTO info
        SELECT sale.product
        ,sale.buyerid
        ,sale.amount
        ,USER.address
        FROM sale
        JOIN USER
        WHERE sale.buyerid = USER.buyerid;
      3. 查询数据表info。1

  5. 数据可视化展示。

    1. 创建Quick BI数据服务并添加数据源和数据集。

      1. 登录Apsara Uni-Manager混合云管理平台,在顶部菜单栏,选择产品 > 大数据 > Quick BI

        1

      2. 单击数据源,查看数据可视化流程。1

      3. 单击新建数据源,创建数据源。1

      4. 添加MaxCompute数据源,输入显示名称、数据库地址、项目名称、AK、SK信息。

        数据库地址和项目名称可在DataWorks数据源管理页面查看odps_first数据源信息。

        AK、SK信息可在企业 > 组织管理,选择组织后获取。1

      5. 输入获取的信息并进行连接测试。1

        连接测试通过后添加,可以查看到新增的数据源的数据表文件信息。

      6. 数据集页面,单击新建数据集1

      7. 选择数据表sale、user、info。1

      8. 创建数据集。

        输入数据集名称及位置,单击确定1

      9. 查看数据集列表。1

    2. 创建用户地域分布图。

      1. 在左侧导航栏,选择仪表盘,单击新建仪表盘1

      2. 将饼图拖至面板中,在右侧图表设计中,选择数据页签,选择info数据表。

      3. 在右侧图表设计中,选择样式页签,输入主标题。1

      4. 在右侧图表设计中,选择数据页签,将buyerid拖至扇区角度/度量处,将address拖至扇区标签/维度处。

      5. 更新并保存后可在仪表盘页面查看用户地域分布图。1

    3. 创建不同产品/地区销量图。

      1. 在左侧导航栏选择仪表盘,单击新建仪表盘1

      2. 3个不同的线图拖至面板中。1

      3. 在右侧图表设计中,选择样式页签,分别输入可视化面板标题,选择显示图表数据标签、线条样式等。1

      4. 设置不同产品、地区销量图。

        在右侧图表设计中,选择数据页签,将amount拖至值轴/度量处,将produceaddress拖至类别轴/维度处,单击更新1

      5. 设置不同产品销量图。

        在右侧图表设计中,选择数据页签,将amount拖至值轴/度量处,将produce拖至类别轴/维度处,单击更新1

      6. 设置不同地区销量图。

        在右侧图表设计中,选择数据页签,将amount拖至值轴/度量处,将address拖至类别轴/维度处,单击更新1

        1. 设置完成后保存,可在仪表盘页面查看不同产品、地区销量图。1可通过预览和公开链接两种方式查看可视化图。

          • 选择预览查看可视化图。1

          • 可将可视化图公开并通过公开链接打开可视化图。1