本文为您介绍CDM汇总层设计规范。

命名规范

命名规则:{project_name}.dws{业务缩写/pub}{数据域缩写}{数据粒度缩写}[{自定义表命名标签缩写}]{统计时间周期范围缩写}{刷新周期标识}{单分区增量全量标识}。

说明
  • 关于统计时间周期范围缩写,在缺省情况下,离线计算应该包括最近一天(1d),最近N天(nd)和历史截至当天(td)三个表,如果出现nd的表的字段过多,需要拆分时,只允许以一个统计周期单元作为原子拆分,即一个统计周期拆分一个表,比如最近7天(_1w)拆分一个表;不允许拆分出来的一个表存储多个统计周期的。
  • 对于{刷新周期标识}和{单分区增量全量标识}在汇总层不做强制要求。单分区增量全量标识:i:表示增量,f表示全量。
  • 对于小时表不管是按天刷新还是按小时刷新, 都用_hh 来表示。
  • 对于分钟表不管是按天刷新还是按小时刷新,都用_mm来表示。

数据存储及生命周期管理规范

CDM汇总层的表的类型为事实表,存储方式为按天分区。

事务型事实表一般永久保存。 周期性快照事实表根据业务需求设置生命周期管理。您可依据3个月内的最大需要访问的跨度设置保留策略,具体计算方式如下:
  • 当3个月内的最大访问跨度小于或等于4天时,建议将保留天数设为7天。
  • 当3个月内的最大访问跨度小于或等于12天时,建议将保留天数设为15天。
  • 当3个月内的最大访问跨度小于或等于30天时, 建议将保留天数设为33天。
  • 当3个月内的最大访问跨度小于或等于90天时,建议将保留天数设为93天。
  • 当3个月内的最大访问跨度小于或等于180天时, 建议将保留天数设为183天。
  • 当3个月内的最大访问跨度小于或等于365天时,建议将保留天数设为368天。