物化配置用于配置维度和事实逻辑表的生命周期、分区字段及自定义参数,同时支持手动设定物化表的个数及字段在物化表中的分布,有效的提升了自动化生成模型的数据查询效率和资源使用效率。本文为您介绍如何配置维度和事实逻辑表的物化参数。
前提条件
已新建维度逻辑表或有主键的事实逻辑表。
操作步骤
请参见数据开发入口,进入数据开发页面。
在数据开发页面,按照下图操作指引,进入物化配置面板。
如果您当前访问的是Dev或Basic(非Data_distill)项目,且项目空间为您的数据开发空间,则不需要选择项目空间。
在物化配置面板,配置参数。
区域
描述
分区与生命周期
派生指标分区:仅周期快照事实表、累积快照事实表和普通维度逻辑表支持。
最大分区(MAX_PT):最大分区保留了最新的全量快照数据,选择最大分区中的数据用于派生指标的计算,可缩短生命周期,节约存储资源。
业务日期(Bizdate):使用业务日期分区计算派生指标,可保障数据的强一致性,但需保留历史分区用于派生指标计算。
生命周期:设置存储的生命周期,生命周期最大值为36500, 大于等于该值将自动转为永久存储(显示为36500天)。
系统支持快速选择存储的生命周期,包括7、14、30和365天。
分布键
计算引擎为StarRocks时,需配置分布键。分布键建议选择高基数且经常作为查询条件的字段,且不建议超过3个字段;分布键的顺序影响存储及查询效率。
说明若逻辑表包含主键时,将默认设置主键为分布键(Duplicate Key)。
自定义物化
开启后可以自定义物化配置,手动设定物化表的个数及字段在物化表中的分布。
说明如果开启自定义物化,每次新增字段都需要人工指定物化表。
开启自定义物化配置后,请按照如下步骤配置物化策略。
(可选)在物化配置弹框中选择物化的初始化策略,快捷完成初始化。
快捷初始化包含以下三种策略,当然您也可以手动调整配置。
单个物化表:将所有字段放入单个物化表。
平衡行策略:产出时间与查询效率平衡,即根据产出的时间间隔拆分物化表。
生产线上策略:生产线的策略,即按照系统的始化策略。
重要切换初始化策略下方物化配置将被重置,请谨慎操作。
单击图标,将待分配的字段添加到展开的物化表后,单击确定。
通过筛选,快速选择目标物化表。
如果需要添加到新的物化表,请单击新增物化表。
配置后:
可以通过物化结果查看已分配的字段、物化表数以及剩余待分配的字段。
可以单击查看物化配置,查看配置详情。
可以单击生产环境物化对比,对比生产线上策略与当前编辑中策略。
物化成本:即物化成本对比。对比物化表个数、冗余存储字段个数以及下游查询关联次数,并标记当前策略相对生产线上策略的绝对变化值。
说明冗余存储字段表示在两个或两个以上物化表冗余存放的字段个数;下游查询关联次数是根据逻辑表的直接(一级)下游引用情况,计算出的关联次数。
字段产出时间:即字段产出时间对比。标记每个字段当前策略相对生产线上策略的绝对变化值。
说明生产线上字段产出时间为最近7天平均产出时间,而当前策略产出时间为计算所得值。
高级物化配置
设置自定义参数。要求需要与当前Dataphin系统绑定的计算引擎源的特性一致。详情请参见配置自定义任务参数。
单击确定。