层级维度逻辑表是具有层级结构关系的维度表。例如时间层级维度逻辑表,包含日、周、月、季、年等日期数据。本文为您介绍如何新建并配置层级维度逻辑表。
层级维度表介绍
层级维度表对应层级对象。具备以下特征:
数据量小。
数据(行)在业务上有上下级关系。例如,地域(行政区划)、企业组织架构、产品类目。国家、省份、城市,城市是一条条独立的记录,而国家->省份->城市之间有上下级的从属关系;企业组织架构中的事业群->事业部->一级部门->二级部门,产品类目中食品->休闲零食->干果等类目关系。
案例说明
数据模式
通常在业务系统中,具备上下从属关系的数据,一般使用以下数据模式。
字段名称 | 字段说明 |
id | 当前层级ID。 |
name | 当前层级名称。 |
parent_id | 父层级ID。 |
level | 层级。 |
数据举例
业务系统中的region
区域数据表。
id | name | parent_id | level |
1 | 中国 | Null | 0 |
21 | 华东大区 | 1 | 1 |
212 | 浙江省 | 21 | 2 |
2121 | 杭州市 | 212 | 3 |
21213 | 余杭区 | 2121 | 4 |
通过Dataphin的region
业务对象创建的层级维度表。
逻辑表名称 | 业务对象 | 来源表 | 子层字段 | 父层字段 | 名称字段 | 层数 |
dim_region | region | ${xxx}.region | id | parent_id | name | 5 |
前提条件
已完成层级业务对象的创建。更多信息,请参见创建并管理业务实体。
操作步骤
在Dataphin首页,单击顶部菜单栏研发->数据研发。
按照以下操作指引,进入新建维度逻辑表对话框。
选择项目(Dev-Prod模式需要选择环境)->单击维度逻辑表->单击新建图标。
在新建维度逻辑表对话框,配置参数。
参数
描述
业务对象
选择层级对象。例如,
region
业务对象。表类型
业务对象选择层级对象,表类型为层级维度逻辑表,不支持修改。
数据板块
默认为项目关联的数据板块,不支持修改。
主题域
默认为业务对象所在的主题域,不支持修改。
计算引擎
设置Dataphin实例为Hadoop计算引擎的租户支持选择计算引擎,包括Hive、Impala、Spark。
重要对应的计算引擎需要进行开启后,才可以支持进行选择。更多信息,请参见创建Hadoop计算源。
计算引擎存在以下限制,详情如下:
Hive:不可读取存储为Kudu格式的来源表。
Impala:可读取存储为Kudu格式的来源表,暂不支持将逻辑表存储为Kudu。如果没有Kudu格式的来源表,不建议使用。
Spark:Spark不可读取存储为Kudu格式的来源表。
数据时效
数据时效用于定义后续该层级维度逻辑表任务在生产环境的调度类型。层级维度逻辑表的数据时效默认为T+1(天任务)。
逻辑表名
Dataphin自动填充逻辑表名。默认命名规则为
<数据板块名称>.dim_<业务对象名称>
。中文名称
填写维度逻辑表的中文名称。例如,区域维度逻辑表。
命名规则如下:
不能超过128个字符。
支持任何字符。
描述信息
填写对层级维度逻辑表的简单描述,1000个字符以内。
单击确定。
在计算逻辑页面,配置维度逻辑表的来源数据与主键间的映射关系。
参数
描述
字段名称
默认为业务过程的名称,您也可以修改字段名称。例如,
region
。命名规则如下:
不能超过128个字符。
支持任何字符。
数据类型
选择层级逻辑表主键的数据类型。例如,
bigint
。说明
填写层级逻辑表主键的字段说明。例如,
区域_主键
ID。来源表
选择层级维度的数据来源。例如,
region
区域数据表。层级数
配置层级维度的层级数。例如,
5
层。是否生成叶子维度表
选择是否生成叶子维度表。叶子维度表是指该层次结构中的最底层或最细节的层次。例如,产品类目维度表的叶子维度表通常会包含具体的产品信息,例如产品ID、产品名称、价格、库存、销售数量等。
子层字段、父层字段
选择来源表中表示子层和父层的数据字段。例如,
region
区域数据表中id
(子层字段)和parent_id
(父层字段)。字段名称
选择来源表中表示层级维度表字段名称的数据字段。例如,
region
区域数据表中的name
字段。根节点定义
定义层级结构的最顶部节点对应的记录。可以基于来源主表字段定义根层级识别的SQL判断条件。例如,
region
区域数据表中的中国即为根节点,判断条件可以为level = 0
或parent_id is null
。数据过滤条件
非必填,您可以对来源表字段定义数据过滤条件。例如,过滤掉脏数据或已逻辑删除的字段。
说明仅可基于来源主表字段,设定数据更新及获取时间周期的判断条件,即时间分区。
单击保存并下一步。
在调度&参数配置页面,配置维度逻辑表的调度属性、调度依赖、调度参数、运行配置。各配置说明如下:
调度属性:用于定义维度逻辑表在生产环境的调度方式。您可以通过调度属性,配置维度逻辑表的调度类型、调度周期、调度逻辑与执行等等。详情说明,请参见配置逻辑表调度属性。
调度依赖:用于定义逻辑表在调度任务中的节点。Dataphin通过各个节点的调度依赖的配置结果,有序的运行业务流程中各个节点,保障业务数据有效、适时地产出。详情说明,请参配置逻辑表上游依赖。
运行参数:参数配置是对代码中所用的变量进行赋值,从而支持节点调度时,参数变量可以自动被替换为相应的变量值。在调度参数配置页面,您可以对参数配置进行忽略或转为全局变量的操作。详情说明,请参见逻辑表参数配置。
运行配置:您可根据业务场景为该维度逻辑表配置任务级的运行超时时间和任务运行失败时的重跑策略,杜绝因计算任务长时间资源占用造成资源浪费的同时提高计算任务运行的可靠性。详情说明,请参见计算任务运行配置。
完成层级维度逻辑表配置后,单击保存并提交。
提交时,Dataphin将进行任务的血缘解析及提交检查。更多信息,请参见规范建模任务提交说明。
后续步骤
如果项目的模式为Dev-Prod,则您需要发布逻辑表至生产环境。具体操作,请参见管理发布任务。
逻辑表发布至生产环境后,您可在运维中心查看并运维逻辑表任务。具体操作,请参见运维中心概述。