规范定义最佳实践

基于Dataphin建模理论和业务需求,明确并规范定义统计指标,以便设计出易于业务使用的数据仓库。

背景信息

规范定义是指以维度建模作为理论基础,构建总线矩阵,划分并定义主题域、业务过程、维度、原子指标、统计周期和派生指标。

在您开始使用Dataphin进行数仓模型设计前,需要完成业务调研、需求分析、构建总线矩阵(从业务数据中抽象出业务过程和维度)、明确并定义统计指标。本教程中假设已完成需求调研、业务分析和构建总线矩阵,带您体验如何明确并规范定义统计指标,帮助您快速理解如何基于Dataphin设计数仓模型。

基本概念

名词

描述

数据板块

数据板块定义了数据仓库的多种命名空间,是一种系统级的概念对象。当数据的业务含义存在较大差异时,您可以创建不同的数据板块,让各成员独立管理不同的业务,后续数据仓库的建设将按照数据板块进行划分。

在Dataphin中,项目可以归属至数据板块以实现规范建模功能,同一个数据板块中可能包含多个不同的项目,所以数据板块与项目的关系为1:N。

主题域

对某个主题分析后确定的主题边界。例如,商品域、交易域、会员域等。

业务过程

业务过程即企业的业务活动事件,通常为不可拆分的事件。创建业务过程,即从顶层视角,规范业务中的事务内容的类型及唯一性。例如电商订单是一个业务过程,业务过程由下单、支付、发货和确认收货等不可拆分的事件组成,每个事件就是一个业务过程。

统计周期

统计的时间范围,也可以称为时间周期。例如最近1天、最近30天等(类似于SQL中Where后的时间条件)。

统计粒度

统计分析的对象或视角,定义数据需要汇总的程度,可以理解为聚合运算时的分组条件(类似于SQL中Group By的对象)。粒度是维度或维度的某些属性的组合。例如,地域(维度)和客户性别(维度属性)组合成统计粒度。

在定义粒度时,您需要充分考虑到业务和维度的关系。通常用于派生指标构建,是汇总表的唯一性识别方式。

业务限定

统计的业务范围,用于筛选出符合业务规则的记录(类似于SQL中Where后的条件,不包括时间区间)。

度量

事实就是度量,通常是对某个业务事件的衡量,通常为数字,如某笔订单的金额。

重要

请注意区分度量和原子指标。任何数据仓库都有维度和度量的概念,但指标是业务分析中的概念。

维度

维度是分析业务的角度,是对应业务流程中的业务对象。例如客户、商品、部门等都可以作为分析业务的角度。

派生指标

派生指标是分析业务的指标。由原子指标、统计周期、统计粒度和业务限定组成。例如原子指标为支付金额,最近1天海外买家支付金额则为派生指标(最近1天为时间周期,海外为业务限定、买家为统计粒度)。

原子指标

原子指标定义了业务分析的度量和统计方法(类似于SQL中Select后的聚合表达式,例如Sum)。

案例说明

A电商公司,销售某品牌多种零食。

商品种类

单价

干果类

10元/500g

膨化类

8元/袋

饮品类

15元/瓶

买家和卖家可以通过电商平台进行交易。test

订单ID

买家ID

买家姓名

商品种类

支付金额

支付方式

29296

1001

张三

干果类

34

花呗

29297

干果类

67

花呗

29298

1003

李四

膨化类

56

支付宝

本案例中,明确及规范定义指标如下。

定义指标

业务数据

数据板块

电商业务

主题域

交易域

维度

商品种类

业务过程

下单购买

业务限定

商品种类为干果类

时间周期

最近1天

原子指标

销售总额

派生指标

最近1天干果类商品销售总额