汇总数据层DWS的设计及汇总逻辑表的创建与查询-智能数据建设与治理 Dataphin-阿里云

汇总数据层以分析的主题对象作为建模驱动，基于上层的应用和产品的指标需求构建公共粒度的汇总表。汇总数据层的一个表通常会对应一个统计粒度（维度或维度组合）及该粒度下若干派生指标。

汇总表设计原则

聚集是指针对原始明细粒度的数据进行汇总。DWS汇总数据层是面向分析对象的主题聚集建模。在本教程中，最终的分析目标为：最近一天某个类目（例如，厨具）商品在各省的销售总额、该类目销售额Top10的商品名称、各省用户购买力分布。因此，我们可以以最终交易成功的商品、类目、买家等角度对最近一天的数据进行汇总。数据聚集的注意事项如下：

聚集是不跨越事实的。聚集是针对原始星形模型进行的汇总。为获取和查询与原始模型一致的结果，聚集的维度和度量必须与原始模型保持一致，因此聚集是不跨越事实的，所以原子指标只能基于一张事实表定义，但是支持原子指标组合为衍生原子指标。
聚集会带来查询性能的提升，但聚集也会增加ETL维护的难度。当子类目对应的一级类目发生变更时，先前存在的、已经被汇总到聚集表中的数据需要被重新调整。

此外，进行DWS层设计时还需遵循数据公用性原则。数据公用性需要考虑汇总的聚集是否可以提供给第三方使用。您可以思考，基于某个维度的聚集是否经常用于数据分析中。如果答案是肯定的，就有必要把明细数据经过汇总沉淀到聚集表中。

汇总表规范

公共汇总表命名规范：dws_统计粒度。举例如下：

dws_report（report汇总表）
dws_user（user汇总表）

创建汇总逻辑表

组成汇总表的统计指标有两种来源，具体如下：

系统按照相同统计粒度，自动汇聚。派生指标提交后，系统会自动生成新的汇总表。派生指标组成部分，如下图所示。
通过非派生指标的方式，创建汇总逻辑表，详情请参见新建汇总逻辑表。

查询汇总逻辑表

逻辑表运维包括逻辑表任务和逻辑表实例：

逻辑表任务用于从逻辑表视角切入，为您展现逻辑表内部任务关系，详情请参见逻辑表任务。
逻辑表实例用于查看已运行的逻辑表任务包含的节点实例及其状态，详情请参见逻辑表实例。