技术架构选型

在数据模型设计之前,需要首先完成技术架构的选型。本教程中使用阿里云大数据产品MaxCompute配合DataWorks,完成整体的数据建模和研发流程。

整体架构图

完整的技术架构图如下图所示。其中,MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks的数据集成负责完成数据的采集和基本的ETL,并执行包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。

image

整体选型说明

架构概述

本架构围绕“数据采集—数据计算—数据架构—数据服务”的逻辑展开,以DataWorksMaxCompute为核心技术栈,结合标准化的数据建模方法与治理体系,构建稳定、高效、可扩展的数据服务能力。最终目标是支撑商家增长、行业增量分析与精细化运营等多类数据应用场景。

数据采集层

数据采集层采用DataWorks数据集成 作为统一的数据入口,用于接入三类核心数据源:

  • 业务系统数据库(如商品中心、交易中心、品牌库)。

  • 埋点数据。

  • 日志数据。

选型理由:

  • 支持多种异构数据源,高兼容性与扩展性。

  • 提供可视化调度能力、任务监控与安全管控。

  • MaxCompute原生打通,提升数据流转效率。

数据计算层

数据计算能力以MaxCompute为核心,承担数据仓库的大规模离线计算任务。
选型理由:

  • 强大的分布式批处理能力,适用于大规模存储与运算。

  • 成本可控,存算分离,按量付费。

  • 与 DataWorks、数据治理能力强耦合,可集成研发、质量、安全、管理等能力。

  • 稳定性高,适合企业级数据仓库构建。

数据架构层

采用 ODS-DWD-DWS-ADS 四层分层架构:

  • ODS:原始数据

  • DWD:清洗标准化数据

  • DWS:公共主题汇总

  • ADS:业务应用数据

优势:复用性强、口径统一、便于治理与扩展。

数据服务层

基于 ADS 层输出统一的数据服务与应用,包括:

  • 商家增长分析

  • 行业增长洞察

  • 精准营销与用户运营

  • 其他 BI、数据产品、数据 API 消费场景

通过标准化指标与数据模型,帮助业务部门更快获取所需数据,提高分析效率。