文档

生命周期管理介绍

生命周期管理支持多种类型的生命周期管理规则,通过建立不同的规则,您可以方便的管理数据湖内的数据生命周期,以便节约存储成本。本文为您介绍生命周期管理规则的基础操作。

功能说明

您可以通过生命周期管理对数据湖中的数据库、数据表配置数据管理规则,可以基于数据最后访问时间、分区值、分区/表最后修改时间、分区/表创建时间四种规则类型,对数据定期进行存储类型转换,从而节省数据存储成本。同时,可以通过表解冻操作,将存储类型转换为标准存储。

适用场景说明

  • 数据湖中存在大量数据库/表的历史数据,这些历史数据随着时间变化,不再被业务使用,期望转为成本更低的低频、归档,冷归档类型存储。例如:

    • 订单表(按pt分区,如pt=20220101),业务诉求为仅分析近3年数据,而历史分区数据期望转为冷归档,降低存储使用成本。此类场景,可以配置按分区值规则类型进行定期归档。

    • 业务A的数据库A,因为业务A不再发展,历史数据暂时封存,可以配置该数据库的定期转为冷归档,将整个数据库转为冷归档。

使用限制

  1. 元数据管理使用数据湖构建(DLF),且数据存储在OSS中。

  2. 暂时无法支持非结构化数据管理,如有这方面需求请参考OSS的生命周期管理。

费用说明

使用生命周期管理功能,涉及两部分费用,如下:

  1. 数据湖构建(DLF)产品的生命周期管理功能,目前公测中,当前阶段免费。

  2. OSS生命周期费用说明,请参考 生命周期费用说明

注意事项

  1. 如果数据被转为归档、冷归档的数据将无法被计算引擎所访问,您必须手工对其进行解冻恢复才可继续使用,且解冻有相关费用产生。详细介绍参考:

    1. 存储类型概述

    2. 转换存储类型

请您结合自己业务情况,充分评估后,再进行规则配置。

  1. 如果数据被转为低频的数据,被计算引擎访问时性能将会下降。请您结合自己业务情况,充分评估后,再进行规则配置。

  2. 生命规则任务,开启调度执行时,每天晚上定时执行,在第二天早上8点前生效。手动执行的任务,执行完成后即生效。

操作说明

前提条件

  1. 您已经开通OSS产品,如未开通请前往OSS控制台

  2. 生命周期管理的库表权限,受到DLF的数据权限管控,所以用户仅能对其权限内的数据库/表进行生命周期规则配置。

创建生命周期规则

您可以参考如下步骤创建一条生命周期规则。

  1. 登录 数据湖构建控制台,选择湖管理>生命周期管理

  2. 单击“新建规则”,进行规则配置。

a) 填写规则名称、描述、数据目录、资源类型。

资源类型可以选型“库”,“表”两种类型,分别对应对元数据库、元数据表进行生命周期规则配置。

image

b) 选择规则类型,目前DLF支持以下四种规则类型:

image.png

  • 数据最后访问时间:可以实现按照数据最后访问时间来界定生命周期。如果表有分区,则按最细粒度分区最后访问时间,否则按表最后访问时间。

  • 分区值(按时间):可以实现按分区值来界定生命周期。目前只适用于一级分区中包含时间格式的表。

  • 分区/表最近修改时间:可以实现按分区/表最近修改时间来界定生命周期。如果表有分区,则按最细粒度分区最近修改时间,否则按表最近修改时间。

  • 分区/表创建时间:可以实现按分区/表创建时间来界定生命周期。如果表有分区,则按最细粒度分区创建时间,否则按表创建时间。

c) 选择转换至低频/归档存储/冷归档存储的时间间隔。

image.png

d)配置规则执行机制。如果您希望DLF每天自动帮您执行当前规则,可打开调度开关。如果不需要每天自动执行,可建立规则后,在页面概览页手动执行。调度执行会在每天8点前执行完成。image

  1. 单击“下一步”,选择要归档的元数据库或元数据表。

a)点击添加资源按钮,选择需要绑定的资源,支持搜索和跨页选择。

image

b)添加资源后,点击确定,即可看到资源绑定结果。

如果绑定成功,可看到成功绑定资源数;

如果绑定失败,可看到失败原因。

image

说明

  1. 资源类型为库时,可以绑定库资源;资源类型为表时,可以绑定表资源。

  2. 表规则优先级大于库规则,如果某表已经绑定库规则,则该操作会覆盖表上的原有库规则。

  3. 每个库/每个表仅支持同时绑定一个规则。

  4. 每个规则最多绑定1000个资源。

  5. 支持仅配置规则,后续再为规则绑定资源;直接点击保存即可。

编辑生命周期规则

如果您要对当前的生命周期规则进行修改或编辑,可以在列表页,单击右侧“编辑”按钮。

重要

  1. 规则被修改后,如果调度执行是开启的,其在第二天执行时才会生效。

  2. 规则被修改后,当其再次被执行,将会影响其绑定的所有资源,影响情况如下:

    1. 如该数据已经被历史规则判定转为低频/归档/冷归档,当继续保持低频/归档/冷归档状态。

    2. 如该数据未被转为低频/归档/冷归档,将会按照新规则生效。

生命周期列表-编辑

查看生命周期信息

  1. 登录数据湖构建控制台,选择湖管理>生命周期管理

  2. 选择一条规则,点击规则ID进入,可以查看规则的当前信息。

  • 基本信息:包括规则基础信息、规则详情、执行机制。

image

  • 资源信息:规则所绑定的库或表信息。

image

  • 执行历史:规则手动执行/调度执行的历史信息。

image

删除生命周期规则

  1. 登录数据湖构建控制台,选择湖管理>生命周期管理

  2. 找到想要删除的生命周期规则,点击右侧的“删除”按钮,在弹框中点击“确认”按钮。

说明

  1. 删除生命周期规则将无法再次被手工执行,以及被调度执行。

  2. 删除生命周期规则后,之前被规则影响的数据将会保持当前现状。

image

手工执行任务

  1. 登录数据湖构建控制台,选择湖管理>生命周期管理

  2. 找到想要手动执行的生命周期规则,点击右侧的“手动执行”按钮,仔细阅读弹出提示后,确认无误,单击“确定”按钮任务开始执行。

重要

手动执行的操作将会立即执行,并对当前绑定资源的数据产生影响,可能影响业务访问,请您提前准确评估风险后再执行。

生命周期列表-手动执行

查看任务执行记录

  1. 登录数据湖构建控制台,选择湖管理>生命周期管理

  2. 选择页签“执行历史”,可以对所有历史执行的归档任务进行查询,并查看执行日志。

生命周期-执行历史-列表

  1. 点击任务名称,可以查看任务执行信息及执行日志。

生命周期-执行历史-日志

表解冻

  1. DLF产品上支持了表解冻,点击表解冻后,会将存储类型转为标准存储。image.png

  2. 如有更多对存储的逆向需求,可以按照以下帮助文档操作。

  • 本页导读 (0)
文档反馈