本文为您介绍CDM汇总层设计规范。

命名规范

命名规则:{project_name}.dws{业务缩写/pub}{数据域缩写}{数据粒度缩写}[{自定义表命名标签缩写}]{统计时间周期范围缩写}{刷新周期标识}{单分区增量全量标识}

命名说明:
  • 在默认情况下,离线计算应该包括最近一天(1d)、最近N天(nd)和历史截至当天(td)三个表。

    如果nd表的字段过多,需要拆分时,只允许以一个统计周期单元作为原子拆分,即一个统计周期拆分一个表。例如,最近7天(1w)拆分一个表,不允许拆分出来的一个表存储多个统计周期。

  • 对于{刷新周期标识}和{单分区增量全量标识}在汇总层不做强制要求。单分区增量全量标识:i表示增量,f表示全量。
  • 对于小时表不管是按天刷新还是按小时刷新,都用_hh来表示。
  • 对于分钟表不管是按天刷新还是按小时刷新,都用_mm来表示。

数据存储及生命周期管理规范

CDM汇总层的表的类型为事实表,存储方式为按天分区。

事务型事实表一般会永久保存。周期快照型事实表根据业务需求设置生命周期管理。您可依据3个月内的最大需要访问的跨度设置保留策略,具体计算方式如下:
  • 当3个月内的最大访问跨度小于或等于4天时,建议将保留天数设为7天。
  • 当3个月内的最大访问跨度小于或等于12天时,建议将保留天数设为15天。
  • 当3个月内的最大访问跨度小于或等于30天时,建议将保留天数设为33天。
  • 当3个月内的最大访问跨度小于或等于90天时,建议将保留天数设为93天。
  • 当3个月内的最大访问跨度小于或等于180天时,建议将保留天数设为183天。
  • 当3个月内的最大访问跨度小于或等于365天时,建议将保留天数设为368天。