使用DataWorks进行数据建模时,数仓架构师或者模型小组成员可以在数仓规划页面对数据分层、业务分类、数据域、业务过程、数据集市、主题域进行设计。完成设计后,模型设计师在建模过程中可以依赖数仓规划中的数据分层、业务分类、数据域、业务过程等对所建模型进行分层化域管理。
规划概述
在数据建模前,需由数仓架构师协同数据开发与模型设计团队,对企业业务及数据进行全面调研,明确数据整体结构。基于此,在数仓规划阶段需完成以下核心设计,方便对所建模型进行分层化域管理。
业务分类:面向复杂业务场景的垂直划分,如电商、金融等。
数据域与业务过程:关键业务链路抽象。
数据集市与主题域:面向业务场景的数据聚合。
数仓分层:数据引入层ODS、公共维度层DIM、明细数据层DWD、汇总数据层DWS及应用数据层ADS等分层逻辑。
业务视角规划
业务分类、数据域与数据集市构成业务驱动的管理框架,通过划分数据归属领域(业务分类)、定义核心业务活动(数据域)、组织场景化数据服务(数据集市),实现从数据生产到消费的价值闭环;而数仓分层则是技术驱动的数据加工流水线,支撑上述框架落地,完成数据从原始态到服务态的层级提炼。
业务分类:业务分类是最高层的业务领域划分。比如电商、金融、零售这类真实业务单元。
数据域:数据域是一个较高层次的数据归类标准,是对企业业务过程进行抽象、提炼、组合的集合。通常是根据业务类别、数据来源、数据用途等多个维度,对企业的业务数据进行的区域划分。一个数据域可以归属多个业务分类,比如交易域可能同时服务于电商和金融业务分类下的交易场景。
业务过程:数据域下的具体业务活动,比如交易域下有如下单、支付等业务过程,一个数据域下可以有多个业务过程。
数据集市:是面向具体业务场景的数据出口,如运营平台集市。
主题域:将数据集市按照分析视角进行主题划分,如商品分析域、用户行为域等,一个数据集市下可以有多个主题域。
技术视角规划
DataWorks默认预置业界通用的五层数仓(ODS、DIM、DWD、DWS、ADS)分层,基本满足数仓开发需求,您也可以结合自身业务需要在数仓分层中进行自定义分层设计:
层级归属 | 数仓分层 | 英文缩写 | 主要功能 | 支持的建模类型 | 支持的指标类型 |
贴源层 | 数据引入层 | ODS | 接收并处理原始数据,结构与源系统一致。 | 贴源表 | - |
公共层 | 公共维度层 | DIM | 构建企业一致性维度表。 | 维度表、维度 | 原子指标 |
明细数据层 | DWD | 构建明细数据的事实表,通常为宽表。 | 明细表 | 原子指标 | |
汇总数据层 | DWS | 构建公共粒度的汇总指标。 | 汇总表 | 原子指标、复合指标、派生指标 | |
应用层 | 应用数据层 | ADS | 存放个性化统计指标。 | 应用表、维度表、维度 | 复合指标、派生指标 |
数仓层级划分是数仓规划的重要技术管理手段,是对整个数仓的纵向分层,贯穿所有业务分类、数据域和数据集市,每个层级都会承载业务分类以及数据域(或数据集市)的映射关系。
实施建议
自主规划设计
如果您想要满足企业个性化需求,深度定制数仓规划。建议先明确业务目标(如“会员增长分析”需归属会员域),再设计技术方案(设计DWD会员明细表)。
先规划业务分类,数据域和数据集市。
按五层架构设计表存储层级。
用检查器规范各分层命名。
复杂企业启用建模空间实现架构复用。
以下为数仓规划的实践教程:
实践理论教程:构建与优化数据仓库。
最佳实践教程:零售电商数据建模,零售电子商务数仓搭建。
模板导入(开箱即用)
若企业缺乏专业建模人才或为新手初次使用,可直接选用DataWorks预置的行业模板,通过开箱即用的模板导入,快速完成数仓规划。
模板导入教程:使用数据模型模板快速进行数仓建模。