在数据模型设计之前,需要首先完成技术架构的选型。本教程中使用阿里云大数据产品MaxCompute配合DataWorks,完成整体的数据建模和研发流程。
整体架构图
完整的技术架构图如下图所示。其中,MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks的数据集成负责完成数据的采集和基本的ETL,并执行包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。
整体选型说明
架构概述
本架构围绕“数据采集—数据计算—数据架构—数据服务”的逻辑展开,以DataWorks和MaxCompute为核心技术栈,结合标准化的数据建模方法与治理体系,构建稳定、高效、可扩展的数据服务能力。最终目标是支撑商家增长、行业增量分析与精细化运营等多类数据应用场景。
数据采集层
数据采集层采用DataWorks数据集成 作为统一的数据入口,用于接入三类核心数据源:
业务系统数据库(如商品中心、交易中心、品牌库)。
埋点数据。
日志数据。
选型理由:
支持多种异构数据源,高兼容性与扩展性。
提供可视化调度能力、任务监控与安全管控。
与MaxCompute原生打通,提升数据流转效率。
数据计算层
数据计算能力以MaxCompute为核心,承担数据仓库的大规模离线计算任务。
选型理由:
强大的分布式批处理能力,适用于大规模存储与运算。
成本可控,存算分离,按量付费。
与 DataWorks、数据治理能力强耦合,可集成研发、质量、安全、管理等能力。
稳定性高,适合企业级数据仓库构建。
数据架构层
采用 ODS-DWD-DWS-ADS 四层分层架构:
ODS:原始数据
DWD:清洗标准化数据
DWS:公共主题汇总
ADS:业务应用数据
优势:复用性强、口径统一、便于治理与扩展。
数据服务层
基于 ADS 层输出统一的数据服务与应用,包括:
商家增长分析
行业增长洞察
精准营销与用户运营
其他 BI、数据产品、数据 API 消费场景
通过标准化指标与数据模型,帮助业务部门更快获取所需数据,提高分析效率。