生命周期管理支持多种类型的生命周期管理规则,通过建立不同的规则,您可以方便地管理数据湖内的数据生命周期,以便节约存储成本。本文为您介绍生命周期管理规则的基础操作。
功能说明
通过生命周期管理对数据湖中的数据库、数据表配置数据管理规则,基于数据最后访问时间、分区值(按时间)、分区/表创建时间、分区/表最近修改时间四种规则类型,对数据定期进行存储类型转换,从而节省数据存储成本。数据湖中存在大量数据库/表的历史数据,这些历史数据随着时间变化,不再被业务使用,期望转为成本更低的低频、归档,冷归档类型存储。例如:
订单表(按pt分区,如pt=20220101),业务诉求为仅分析近3年数据,而历史分区数据期望转为冷归档,降低存储使用成本。此类场景,可以配置按分区值规则类型进行定期归档。
业务A的数据库A,因为业务A不再发展,历史数据暂时封存,可以配置该数据库的定期转为冷归档,将整个数据库转为冷归档。
使用限制
元数据管理使用数据湖构建(DLF 1.0),且数据存储在OSS中。
暂时无法支持非结构化数据管理,如有这方面需求请参考OSS的生命周期管理。
费用说明
使用生命周期管理功能,涉及两部分费用,如下:
生命周期管理功能,目前公测中,当前阶段免费。
OSS生命周期费用说明,请参考OSS生命周期费用说明。
操作说明
前提条件
您已经开通OSS产品,如未开通请前往OSS控制台。
生命周期管理的库表权限,受到DLF的数据权限管控,所以用户仅能对其权限内的数据库/表进行生命周期规则配置。
创建生命周期规则
您可以参考如下步骤创建一条生命周期规则。
登录数据湖构建控制台。
在左侧菜单栏,选择湖管理>生命周期管理。
单击新建规则,进行规则配置。
填写基本信息:名称、描述、数据目录、资源类型。
资源类型可以选择库、表两种类型,分别对应元数据库、元数据表进行生命周期规则配置。
选择规则类型,目前DLF支持以下四种规则类型。
数据最后访问时间:可以实现按照数据最后访问时间来界定生命周期。如果表有分区,则按最细粒度分区最后访问时间,否则按表最后访问时间。
分区值(按时间):可以实现按分区值来界定生命周期。目前只适用于一级分区中包含时间格式的表。
分区/表最近修改时间:可以实现按分区/表最近修改时间来界定生命周期。如果表有分区,则按最细粒度分区最近修改时间,否则按表最近修改时间。
分区/表创建时间:可以实现按分区/表创建时间来界定生命周期。如果表有分区,则按最细粒度分区创建时间,否则按表创建时间。
选择转换至低频、归档存储、冷归档存储的时间间隔。
配置规则执行机制。
如果您希望DLF每天自动帮您执行当前规则,可打开调度开关。如果不需要每天自动执行,可建立规则后,在页面概览页手动执行。调度执行会在每天8点前执行完成。
单击下一步,选择要归档的元数据库或元数据表。
单击添加库资源,选择需要绑定的资源,支持搜索和跨页选择,单击添加。
添加资源后,单击确定,即可看到资源绑定结果。
如果绑定成功,可看到成功绑定资源数;如果绑定失败,可看到失败原因。
说明资源类型为库时,可以绑定库资源;资源类型为表时,可以绑定表资源。
表规则优先级大于库规则,如果某表已经绑定库规则,则该操作会覆盖表上的原有库规则。
每个库/每个表仅支持同时绑定一个规则。
每个规则最多绑定1000个资源。
支持仅配置规则,后续再为规则绑定资源;直接点击保存即可。
编辑生命周期规则
如果您要对当前的生命周期规则进行修改或编辑,可以在列表页,单击右侧编辑按钮。
规则被修改后,如果调度执行是开启的,则在第二天执行时才会生效。
规则被修改后,当其再次被执行,将会影响其绑定的所有资源,影响情况如下:
如该数据已经被历史规则判定转为低频/归档/冷归档,当继续保持低频/归档/冷归档状态。
如该数据未被转为低频/归档/冷归档,将会按照新规则生效。
查看生命周期信息
在左侧菜单栏,选择湖管理>生命周期管理。
选择一条规则,单击规则ID进入,可以查看规则的当前信息。
基本信息:包括规则基础信息、规则详情、执行机制。
资源信息:规则所绑定的库或表信息。
执行历史:规则手动执行、调度执行的历史信息。
删除生命周期规则
在左侧菜单栏,选择湖管理>生命周期管理
找到想要删除的生命周期规则,单击右侧的删除,在弹框中单击确认。
删除生命周期规则将无法再次被手工执行,以及被调度执行。
删除生命周期规则后,之前被规则影响的数据将保持当前状态。
手工执行任务
在左侧菜单栏,选择湖管理>生命周期管理。
找到想要手动执行的生命周期规则,单击右侧的手动执行,仔细阅读弹出提示后,确认无误,单击确定,任务开始执行。
手动执行的操作将会立即执行,并对当前绑定资源的数据产生影响,可能影响业务访问,请您在执行前提前准确评估风险。
查看任务执行记录
在左侧菜单栏,选择湖管理>生命周期管理。
单击执行历史页签,可以对所有历史执行的归档任务进行查询,并查看执行日志。
单击任务名称,可以查看任务执行信息及执行日志。
表解冻
在左侧菜单栏,选择元数据>元数据管理。
单击数据表页签,单击表名称。
单击存储规则页签,DLF产品上支持了表解冻,单击表解冻,会将存储类型转为标准存储。
如有更多对存储的逆向需求,可以按照以下帮助文档操作。