DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力,本文以一个零售电商行业的数仓搭建实验为例,为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现,帮助您深入了解阿里云DataWorks。
背景信息
本次实验根据零售电商行业的会员、商品、交易、物流、评价等业务数据计算出GMV(商品交易总额)、用户画像等数据供业务决策。您可以通过本次实验,了解到如下信息。
了解一个项目从数据建模、数据同步(数据传输)、数据开发、运维、数据治理到数据应用的全流程。
了解DataWorks、MaxCompute、Hologres、E-MapReduce等各个云产品、组件之间的联动关系。
了解如何规划DataWorks工作空间、MaxCompute项目、业务流程、表管理。
了解DataWorks核心功能模块能力及基础应用。
了解数仓分层的消费和体现。
本次实验数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据。
技术选型
数据建模:大数据开发治理平台 DataWorks数据建模(可选),标准版及以上版本可使用,需要单独购买。
原始数据存储:云数据库 RDS MySQL(必选),本实验中DataWorks为您提供了阿里云RDS MySQL用于测试,包含了测试数据,无需您自己开通。
数据传输:大数据开发治理平台 DataWorks数据集成(必选),基础版DataWorks已包含数据集成功能。
大数据存储与计算:云原生大数据计算服务 MaxCompute(必选)、实时数仓Hologres(可选)、开源大数据平台E-MapReduce(可选),您可根据需要开通MaxCompute、Hologres或E-MapReduce。
数据开发与调度:大数据开发治理平台 DataWorks数据开发(必选)、DataWorks运维中心(必选),基础版DataWorks已包含数据开发和运维中心功能。
数据治理:大数据开发治理平台 DataWorks数据质量(必选)、大数据开发治理平台 DataWorks数据地图(必选)、大数据开发治理平台 DataWorks数据保护伞(必选) ,基础版DataWorks已包含。
数据展示:智能分析套件Quick BI(必选),您可根据需要开通Quick BI。
功能简介与操作流程
本文通过以下DataWorks的核心功能和其他相关阿里云产品,为您演示零售电商场景下的数仓搭建流程,您可提前了解相关信息。
主要操作流程 | 操作目的 |
| |
说明 RDS MySQL作为本次实验中存储原始数据的数据源。您无需自行准备RDS MySQL云产品及数据,本实验为您提供公共的实验环境与数据。 | |
使用DataWorks的运维中心,周期性调度数据同步、清洗加工任务流程,获得每日的最新业务数据,同时可以监控每日任务运行的状态。 | |
使用DataWorks的数据地图、数据质量、数据保护伞等功能,实现查看管理元数据、监控数据质量、敏感数据展示脱敏等。 | |
通过DataWorks的数据服务功能,将数据表快速生成API,并发布至网关统一管理,供第三方服务使用。 | |
通过Quick BI搭建面向不同业务需求的可视化大屏,可视化展示数据结果,便于进行业务数据分析。 |
操作演示说明
本文以下的操作演示为操作示例,随产品迭代更新,部分操作示例图可能与您的实际操作环境有细微出入,一般情况下,您可以参考对应功能的官方文档找到入口,不会影响您实验整体操作流程。