规划概述

使用DataWorks进行数据建模时,数仓架构师或者模型小组成员可以在数仓规划页面对数据分层、业务分类、数据域、业务过程、数据集市、主题域进行设计。完成设计后,模型设计师在建模过程中可以依赖数仓规划中的数据分层、业务分类、数据域、业务过程等对所建模型进行分层化域管理。

规划概述

在数据建模前,需由数仓架构师协同数据开发与模型设计团队,对企业业务及数据进行全面调研,明确数据整体结构。基于此,在数仓规划阶段需完成以下核心设计,方便对所建模型进行分层化域管理。

  1. 业务分类:​面向复杂业务场景的垂直划分,如电商、金融等。

  2. 数据域与业务过程​:关键业务链路抽象。

  3. 数据集市与主题域​:面向业务场景的数据聚合。

  4. 数仓分层:数据引入层ODS公共维度层DIM明细数据层DWD汇总数据层DWS应用数据层ADS等分层逻辑。

image

业务视角规划

业务分类、数据域与数据集市构成业务驱动的管理框架,通过划分数据归属领域(业务分类)、定义核心业务活动(数据域)、组织场景化数据服务(数据集市),实现从数据生产到消费的价值闭环;而数仓分层则是技术驱动的数据加工流水线,支撑上述框架落地,完成数据从原始态到服务态的层级提炼。

image
  • 业务分类:业务分类是最高层的业务领域划分。比如电商、金融、零售这类真实业务单元。

  • 数据域:数据域是一个较高层次的数据归类标准,是对企业业务过程进行抽象、提炼、组合的集合。通常是根据业务类别、数据来源、数据用途等多个维度,对企业的业务数据进行的区域划分。一个数据域可以归属多个业务分类,比如交易域可能同时服务于电商和金融业务分类下的交易场景。

  • 业务过程:数据域下的具体业务活动,比如交易域下有如下单、支付等业务过程,一个数据域下可以有多个业务过程。

  • 数据集市:是面向具体业务场景的数据出口,如运营平台集市。

  • 主题域:将数据集市按照分析视角进行主题划分,如商品分析域、用户行为域等,一个数据集市下可以有多个主题域。

技术视角规划

DataWorks默认预置业界通用的五层数仓(ODSDIMDWDDWSADS)分层,基本满足数仓开发需求,您也可以结合自身业务需要在数仓分层中进行自定义分层设计:

层级归属

数仓分层

英文缩写

主要功能

支持的建模类型

支持的指标类型

贴源层

数据引入层

ODS

接收并处理原始数据,结构与源系统一致。

贴源表

-

公共层

公共维度层

DIM

构建企业一致性维度表。

维度表、维度

原子指标

明细数据层

DWD

构建明细数据的事实表,通常为宽表。

明细表

原子指标

汇总数据层

DWS

构建公共粒度的汇总指标。

汇总表

原子指标、复合指标、派生指标

应用层

应用数据层

ADS

存放个性化统计指标。

应用表、维度表、维度

复合指标、派生指标

数仓层级划分是数仓规划的重要技术管理手段,是对整个数仓的纵向分层,贯穿所有业务分类、数据域和数据集市,每个层级都会承载业务分类以及数据域(或数据集市)的映射关系。

实施建议

自主规划设计

如果您想要满足企业个性化需求,深度定制数仓规划。建议先明确业务目标​(如“会员增长分析”需归属会员域),​再设计技术方案​(设计DWD会员明细表)。

  1. 先规划业务分类,数据域和数据集市。

  2. 按五层架构设计表存储层级。

  3. 用检查器规范各分层命名。

  4. 复杂企业启用建模空间实现架构复用。

以下为数仓规划的实践教程:

模板导入(开箱即用)

若企业缺乏专业建模人才或为新手初次使用,可直接选用DataWorks预置的行业模板,通过开箱即用的模板导入,快速完成数仓规划。

模板导入教程:使用数据模型模板快速进行数仓建模