基于Dataphin建模理论和业务需求,明确并规范定义统计指标,以便设计出易于业务使用的数据仓库。
背景信息
规范定义是指以维度建模作为理论基础,构建总线矩阵,划分并定义主题域、业务过程、维度、原子指标、统计周期和派生指标。
在您开始使用Dataphin进行数仓模型设计前,需要完成业务调研、需求分析、构建总线矩阵(从业务数据中抽象出业务过程和维度)、明确并定义统计指标。本教程中假设已完成需求调研、业务分析和构建总线矩阵,带您体验如何明确并规范定义统计指标,帮助您快速理解如何基于Dataphin设计数仓模型。
基本概念
名词 | 描述 |
数据板块 | 数据板块定义了数据仓库的多种命名空间,是一种系统级的概念对象。当数据的业务含义存在较大差异时,您可以创建不同的数据板块,让各成员独立管理不同的业务,后续数据仓库的建设将按照数据板块进行划分。 在Dataphin中,项目可以归属至数据板块以实现规范建模功能,同一个数据板块中可能包含多个不同的项目,所以数据板块与项目的关系为1:N。 |
主题域 | 对某个主题分析后确定的主题边界。例如,商品域、交易域、会员域等。 |
业务过程 | 业务过程即企业的业务活动事件,通常为不可拆分的事件。创建业务过程,即从顶层视角,规范业务中的事务内容的类型及唯一性。例如电商订单是一个业务过程,业务过程由下单、支付、发货和确认收货等不可拆分的事件组成,每个事件就是一个业务过程。 |
统计周期 | 统计的时间范围,也可以称为时间周期。例如最近1天、最近30天等(类似于SQL中Where后的时间条件)。 |
统计粒度 | 统计分析的对象或视角,定义数据需要汇总的程度,可以理解为聚合运算时的分组条件(类似于SQL中Group By的对象)。粒度是维度或维度的某些属性的组合。例如,地域(维度)和客户性别(维度属性)组合成统计粒度。 在定义粒度时,您需要充分考虑到业务和维度的关系。通常用于派生指标构建,是汇总表的唯一性识别方式。 |
业务限定 | 统计的业务范围,用于筛选出符合业务规则的记录(类似于SQL中Where后的条件,不包括时间区间)。 |
度量 | 事实就是度量,通常是对某个业务事件的衡量,通常为数字,如某笔订单的金额。 重要 请注意区分度量和原子指标。任何数据仓库都有维度和度量的概念,但指标是业务分析中的概念。 |
维度 | 维度是分析业务的角度,是对应业务流程中的业务对象。例如客户、商品、部门等都可以作为分析业务的角度。 |
派生指标 | 派生指标是分析业务的指标。由原子指标、统计周期、统计粒度和业务限定组成。例如原子指标为支付金额,最近1天海外买家支付金额则为派生指标(最近1天为时间周期,海外为业务限定、买家为统计粒度)。 |
原子指标 | 原子指标定义了业务分析的度量和统计方法(类似于SQL中Select后的聚合表达式,例如Sum)。 |
案例说明
A电商公司,销售某品牌多种零食。
商品种类 | 单价 |
干果类 | 10元/500g |
膨化类 | 8元/袋 |
饮品类 | 15元/瓶 |
买家和卖家可以通过电商平台进行交易。
订单ID | 买家ID | 买家姓名 | 商品种类 | 支付金额 | 支付方式 |
29296 | 1001 | 张三 | 干果类 | 34 | 花呗 |
29297 | 干果类 | 67 | 花呗 | ||
29298 | 1003 | 李四 | 膨化类 | 56 | 支付宝 |
本案例中,明确及规范定义指标如下。
定义指标 | 业务数据 |
数据板块 | 电商业务 |
主题域 | 交易域 |
维度 | 商品种类 |
业务过程 | 下单购买 |
业务限定 | 商品种类为干果类 |
时间周期 | 最近1天 |
原子指标 | 销售总额 |
派生指标 | 最近1天干果类商品销售总额 |