文档

数仓规划概述

更新时间:

使用DataWorks进行数据建模时,数仓架构师或者模型小组成员可以在数仓规划页面对数据分层、业务分类、数据域、业务过程、数据集市、主题域进行设计。完成设计后,模型设计师在建模过程中可以依赖数仓规划中的数据分层、业务分类、数据域、业务过程等对所建模型进行分层化域管理。

数仓分层

您可以结合业务场景、数据场景综合考虑设计数仓的数据分层,DataWorks为您默认创建业界通用的五层数仓分层:
  • 数据引入层 ODS(Operational Data Store)
  • 明细数据层 DWD(Data Warehouse Detail)
  • 汇总数据层 DWS(Data Warehouse Summary)
  • 应用数据层 ADS(Application Data Service)
  • 公共维度层 DIM(Dimension)
您也可以根据业务需求创建其他分层数据层,创建数据分层的操作请参见创建数仓分层

分层归属

DataWorks为您提供了贴源层公共层应用层等分层归属,您可以将不同功能作用的分层挂载至相应归属,通过层级化结构呈现输出。下图以默认的五层数据分层为例,数据分层规划完成后,后续的表数据存储可根据规划分别存储至不同的数据分层中。数据分层

  • 贴源层:用于数据库、日志、消息等基础源数据的引入。源数据经过一系列ETL操作进入贴源层,该层级只能挂载贴源表。

  • 公共层:用于加工、整合贴源层输入的公共数据,建立统一的指标维度,构建可复用面向分析和统计的明细事实数据和汇总数据。该层级可挂载明细表、维度表、汇总表。

  • 应用层:基于实际应用需求,获取公共层加工整合后的数据,面向具体应用场景或指定产品进行的个性化数据统计。该层级可以挂载应用表、维度表。

业务分类

当企业业务比较复杂,不同类型业务彼此间需要共享数据域,但是又希望能在模型设计和应用过程中快速定位本业务的数据时,您可结合真实业务情况,规划不同的业务分类,在后续建模的维度表和明细表中,将其关联到对应的业务分类中。创建业务分类的操作可参见业务分类

数据域与业务过程

数据域与业务过程通常位于公共层,根据业务类别、数据来源、数据用途等多个维度,对公共层数据进行区域及区域下业务活动进行划分。

  • 数据域

    数据域是一个较高层次的数据归类标准,是对企业业务过程进行抽象、提炼、组合的集合,是企业业务人员在使用数据时第一个分组入口,可以帮助企业业务人员快速的从海量的数据中快速圈定到自己的业务数据。

    详情请参见数据域

  • 业务过程

    业务过程是对业务活动流程的描述,例如在电商领域,加购、下单、支付等都可以是一个业务过程。进行业务效果分析时,业务过程有非常典型的应用,例如常用漏斗分析,即将购买商品的业务活动分解为浏览商品、加入购物车、下订单、付款、确认收货等业务过程,统计每个业务过程的“订单数”,将可以针对“订单数”这一指标做漏斗分析。使用DataWorks创建业务过程的操作请参见业务过程

数据集市与主题域

数据集市与主题域通常位于应用层,面向用户的实际业务需求,对指定的某类业务进行场景或产品的细粒度划分,制定不同分析视角,基于公共层的整合数据进行业务个性化的数据统计。

  • 数据集市

    数据集市是对某个业务分类制定细化的业务主题,并通过主题域,基于不同分析视角对目标集市中的数据进行主题划分,最终面向业务应用统计分析数据。例如,运营平台数据集市。

    详情请参见数据集市

  • 主题域

    主题域用于将数据集市按照分析视角进行划分,通常是联系较为紧密的数据主题的集合。您可以根据业务的关注点,将这些数据主题划分至不同的主题域。例如,电商行业通常分为交易域、会员域、商品域等。详情请参见主题域

维度管理

维度管理用于标准化定义维度,帮助您对数据建模过程中产生的维度进行统一建设和管理,保证维度唯一,避免重复建设。后续创建维度表时可关联相应维度,关联后即可通过不同维度分析呈现不同视角的业务数据状况。详情请参见创建概念模型:维度

建模空间

当您所需要管理多个DataWorks工作空间且需要复用一套数仓规划时,面对跨多个工作空间的复杂数据体系,可以通过设计空间来共享一套数据建模工具,针对整个数据体系进行统一地数仓规划、维度建模及指标定义等工作。

DataWorks智能数据建模在进行跨多个工作空间数据的统一建模情况下,为您提供了模型设计工作空间数据研发工作空间的概念,通过建模空间功能实现模型跨工作空间应用。

建模空间2

建模空间的详细介绍请参见建模空间