本文为您介绍Dataphin中,业务板块、数据域、项目、维度、业务过程、维度逻辑表、事实逻辑表、原子指标等基本概念。
数据板块
数据板块是逻辑空间的重要组成部分,是基于业务特征划分的命名空间。当数据的业务含义存在较大差异时,您可以创建不同的数据板块,独立管理不同的业务,后续数据仓库的建设将按照数据板块进行划分。在Dataphin中,项目可以归属至数据板块以实现规范建模功能,同一个数据板块中可能包含多个不同的项目,所以数据板块与项目的关系为1:N。例如,某企业的业务涉及零售和文娱,且业务数据相互独立,则零售和文娱就可以划分为两个数据板块。
划分数据板块的规则如下:
一个数据板块代表一种业务含义。例如,零售数据板块、文娱数据板块。
同一个板块内的业务实体(业务对象或业务活动)间有直接或间接的业务联系(业务对象参与业务活动,业务活动之间存在流转关系)。
数据板块内的数据是完整的,即一个板块内可以独立完成从数据采集到最后的数据加工。
例如,某多元化经营的企业,有地产、金融、建筑三个经营方向,这样业务板块可以划分为地产、金融和建筑。
主题域
主题域是用于存放同一数据板块内不同意义的指标。一个数据板块会划分出多个主题域,一个主题域只能归属于一个业务。
划分主题域的通用规则如下:
一个主题域代表一种业务含义。例如,商品域、交易域。
针对某个业务场景或业务职能的数据放到同一个主题域。例如,零售行业中采购、仓储、配送、都是属于供应链物流范畴,应该划分在同一个主题域。
通常根据业务应用系统来划分。 例如,零售行业内业务系统的订单处理是一个独立系统,有独立的产研团队;客户管理系统是另一个独立系统,也有独立产研团队,那么就可以分别设置订单主题域和客户主题域。
例如,零售数据板块下,您可以划分出商品域、交易域和会员域三个主题域,用于存放不同意义的指标。
业务对象
业务对象即参与业务的主体和客体,通常情况下业务对象是实际存在、不因事件发生而存在的对象。例如客户、员工、产品等具体的业务对象;地域、组织关系和产品类目等抽象的业务对象。
业务活动
业务活动即企业的业务活动事件,通常为不可拆分的事件,是一个或者多个业务对象在某个时间或时间段,为了达成某种目的所进行的活动或者是某种活动的结果。业务活动有以下几个关键要素(属性):
活动主体即活动的发起者,是一个业务对象。
可选的活动客体即活动的参与者,可能有多个。
活动时间,可以是一个单点时刻,也可能是一个有开始和结束的时间段。
例如,电商订单是一个业务活动,业务活动由下单、支付、发货和确认收货等不可拆分的事件组成,每个事件就是一个业务活动。
项目
项目是一种物理空间上的划分,便于用户在数据中台建设过程中对物理资源及开发人员进行隔离化管理。一个数据板块可以包含多个项目,Dataphin成员可以加入到多个不同的项目。一个数据板块可以有多个项目,但是一个项目只能属于一个数据板块。项目与底层计算引擎的物理空间(例如,MaxCompute项目,Hive Database)一一对映。Dataphin利用了底层计算引擎物理空间的能力来做资源分配,Dataphin项目独立成员管理实现了权限的管控。
另外,根据数据板块内数据的加工的程度,会将数据划分为三层,每一层一般对应独立的项目:
ODM(Operational Data Model)操作数据模型层,也叫贴源层。用于存储从业务应用系统镜像复制(即不做任何过滤或者加工)的数据。
CDM(Common Data Model)公共数据模型层,简称公共层。用于建设板块级通用或者共用的模型。
ADM(Application Data Model)应用数据模型层,简称应用层。用于面向具体业务应用场景的数据模型。
维度
人们观察事物的角度,是指一种视角,是确定事物的多方位、多角度、多层次的条件和概念。
从业务层,通常维度是指业务对象的属性,业务对象是业务的参与者。例如零售业务中的买家,商品、类目和地域等可以具象化的业务对象,买家的性别,商品的价格为业务对象的属性。
从技术层,类似于SQL中group by后的字段。关于group by如何使用,请参见GROUP BY分组查询(col_list)。
维度逻辑表
丰富维度的属性信息形成维度逻辑表。通过维度逻辑表,设计及加工处理公共对象明细数据,便于提取业务中对象的明细数据。
事实逻辑表
用于描述业务活动的详细信息。通过创建事实逻辑表,设计及加工处理公共事务明细数据,便于提取业务中事务的明细数据。
原子指标
对指标统计口径、具体算法的抽象。Dataphin创新性地提出了设计即开发的理念,指标定义同时也明确了设计统计口径(即计算逻辑),提升了研发效率,并保证了统计结果的一致性。例如支付金额。
衍生原子指标
基于原子指标做二次多元计算的表达式。例如原子指标A和B,可以定义衍生原子指标C=A/B
。
派生指标
即基于原子指标、时间周期和维度,圈定业务统计范围并分析获取业务统计指标的数值。派生指标=原子指标+业务限定+统计周期+维度或维度的组合(统计粒度)
。
业务限定
统计的业务范围,用于筛选出符合业务规则的记录(类似于SQL中where后的条件,不包括时间区间)。原子指标是计算逻辑的标准化定义,业务限定则是条件限制的标准化定义。
统计周期
统计周期用于定义派生指标的来源数据的时间跨度。例如最近1天、最近30天等(类似于SQL中where后的时间条件)。
统计粒度
统计分析的对象或视角,用于圈定数据的统计范围,您也可以理解为聚合运算时的分组条件(类似于SQL中Group By的对象)。统计粒度也被称为粒度,是维度或维度的组合,是派生指标构建的核心元素,同时也可以唯一标识汇总逻辑表。例如,某汇总逻辑表统计了淘宝某卖家在陕西省份的成交额,则该汇总逻辑表的粒度就是卖家和省份这两个维度的组合。
统计时效
派生指标的计算频次,即派生指标产出的时间间隔。目前支持按天计算。
汇总逻辑表
派生指标归属的表就是汇总逻辑表。汇总逻辑表有且仅有一个统计粒度,同一个统计时效下统计粒度相同的派生指标属于一个汇总逻辑表。汇总逻辑表的主键即组成统计粒度的维度(维度逻辑表的主键) 组合,主键之外的字段全部都是指标。
物理表
计算引擎中表,即通过DDL创建的表。
物化表
存储逻辑表真实数据的物理表。维度辑逻表、事实逻辑表或汇总逻辑表是Dataphin内一种表的定义,类似传统数据库里的视图。真实的数据是存储在计算引擎的物理表中,这些物理表就是逻辑表的物化表,一个逻辑表可能有多个物化表(只有有主键的逻辑表才能有多个物化表,每个物化表都包含主键字段)。
相关参考
关于部分基本概念的理解,您可以参考规范定义最佳实践,详情请参见规范定义最佳实践。