本文为您介绍CDM明细层的表、数据存储与生命周期管理和各种事实表的设计规范。

表命名规范

命名规则:{project_name}.dwd{业务缩写/pub}{数据域缩写}{业务过程缩写}[{自定义表命名标签缩写}]{刷新周期标识}{单分区增量全量标识}

命名说明:
  • pub表示数据包括多个业务的数据。
  • 单分区增量全量标识:i表示增量,f表示全量。

数据存储及生命周期管理规范

CDM明细层的表的类型为事实表,存储方式为按天分区。

事务型事实表一般永久保存。周期快照型事实表根据业务需求设置生命周期管理。您可依据3个月内的最大需要访问的跨度设置保留策略,具体计算方式如下:
  • 当3个月内的最大访问跨度小于或等于4天时,建议将保留天数设为7天。
  • 当3个月内的最大访问跨度小于或等于12天时,建议将保留天数设为15天。
  • 当3个月内的最大访问跨度小于或等于30天时, 建议将保留天数设为33天。
  • 当3个月内的最大访问跨度小于或等于90天时,建议将保留天数设为93天。
  • 当3个月内的最大访问跨度小于或等于180天时, 建议将保留天数设为183天。
  • 当3个月内的最大访问跨度小于或等于365天时,建议将保留天数设为368天。

事务型事实表设计准则

事务型事实表主要用于分析行为与追踪事件。事务事实表获取业务过程中的事件或者行为细节,然后通过事实与维度之间关联,可以非常方便地统计各种事件相关的度量,例如浏览UV,搜索次数等等。
  • 基于数据应用需求的分析设计事务型事实表,如果下游存在较大的针对某个业务过程事件的分析指标需求,可以考虑基于某一个事件过程构建事务型事实表。
  • 事务型事实表一般选用事件发生日期或时间作为分区字段,这种分区方式可以方便下游的作业数据扫描执行分区裁剪。
  • 明细层事实表的冗余子集的原则能有利于降低上层数据访问的IO开销。
  • 明细层事实表维度退化到事实表原则能有利于减少上层数据访问的JOIN成本。

周期快照型事实表

周期快照型事实表主要用于分析状态型或者存量型事实。快照是指以预定的时间间隔来采样状态度量。

累计快照事实表

累计快照事实表是基于多个业务过程联合分析从而构建的事实表,如采购单的流转环节等。

累计快照事实表主要用于分析事件之间的时间间隔与周期。例如,用交易的支付与发货之间的间隔,来分析发货速度,或在支付和退款环节分析支付退款率等等。

累计快照事实表同时也可以用于帮助分析一些少量的、且对刷新时间不是非常敏感的指标统计。例如,在当前事务型事实表不支持,且只有少量的统计指标时,需要分析交易的关闭和发货,就可以基于累计快照事实表进行计算。