快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力,本文以一个零售电商行业的数仓搭建实验为例,为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现,帮助您深入了解阿里云DataWorks。

背景信息

本次实验根据零售电商行业的会员、商品、交易、物流、评价等业务数据计算出GMV(商品交易总额)、用户画像等数据供业务决策。您可以通过本次实验,了解到如下信息。

  • 了解一个项目从数据建模、数据同步(数据传输)、数据开发、运维、数据治理到数据应用的全流程。

  • 了解DataWorks、MaxCompute、Hologres、E-MapReduce等各个云产品、组件之间的联动关系。

  • 了解如何规划DataWorks工作空间、MaxCompute项目、业务流程、表管理。

  • 了解DataWorks核心功能模块能力及基础应用。

  • 了解数仓分层的消费和体现。

说明

本次实验数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据。

技术选型

  • 数据建模:大数据开发治理平台 DataWorks数据建模(可选),标准版及以上版本可使用,需要单独购买。

  • 原始数据存储:云数据库 RDS MySQL(必选),本实验中DataWorks为您提供了阿里云RDS MySQL用于测试,包含了测试数据,无需您自己开通。

  • 数据传输:大数据开发治理平台 DataWorks数据集成(必选),基础版DataWorks已包含数据集成功能。

  • 大数据存储与计算:云原生大数据计算服务 MaxCompute(必选)、实时数仓Hologres(可选)、开源大数据平台E-MapReduce(可选),您可根据需要开通MaxCompute、Hologres或E-MapReduce。

  • 数据开发与调度:大数据开发治理平台 DataWorks数据开发(必选)、DataWorks运维中心(必选),基础版DataWorks已包含数据开发和运维中心功能。

  • 数据治理:大数据开发治理平台 DataWorks数据质量(必选)、大数据开发治理平台 DataWorks数据地图(必选)、大数据开发治理平台 DataWorks数据保护伞(必选) ,基础版DataWorks已包含。

  • 数据展示:智能分析套件Quick BI(必选),您可根据需要开通Quick BI。

功能简介与操作流程

本文通过以下DataWorks的核心功能和其他相关阿里云产品,为您演示零售电商场景下的数仓搭建流程,您可提前了解相关信息。

主要操作流程

操作目的

维度建模

  • 使用DataWorks的智能数据建模完成对业务数据仓库的模型规范制定及数据分层、数据域、业务过程等信息的设定,完成逻辑模型的设计,并将逻辑模型发布生成物理表。

  • DataWorks智能建模会将创建的模型表发布到MaxCompute引擎中。

数据开发

  • 使用DataWorks的数据集成功能,将其他数据源中的数据同步到MaxCompute中。

  • 使用DataWorks的数据开发功能,将同步到MaxCompute中的数据进行清洗加工,并将结果数据写入MaxCompute表中。

说明

RDS MySQL作为本次实验中存储原始数据的数据源。您无需自行准备RDS MySQL云产品及数据,本实验为您提供公共的实验环境与数据。

任务运维

使用DataWorks的运维中心,周期性调度数据同步、清洗加工任务流程,获得每日的最新业务数据,同时可以监控每日任务运行的状态。

数据治理

使用DataWorks的数据地图、数据质量、数据保护伞等功能,实现查看管理元数据、监控数据质量、敏感数据展示脱敏等。

生成数据API

通过DataWorks的数据服务功能,将数据表快速生成API,并发布至网关统一管理,供第三方服务使用。

数据展示:Quick BI

通过Quick BI搭建面向不同业务需求的可视化大屏,可视化展示数据结果,便于进行业务数据分析。

操作演示说明

本文以下的操作演示为操作示例,随产品迭代更新,部分操作示例图可能与您的实际操作环境有细微出入,一般情况下,您可以参考对应功能的官方文档找到入口,不会影响您实验整体操作流程。