高效数据治理实施指南

DataWorks数据治理中心可协助数据治理团队建立数据治理框架、优化治理过程、提升治理效率,从而实现治理目标的高效突破。本文通过治理负责人的实操过程,为您介绍如何通过数据治理计划能力,高效设定和达成数据治理目标。

背景信息

在多人协作的数据团队中,数据治理是重要且繁琐的工作,在解决“如何制定客观的数据治理目标”、“如何高效推动团队达成治理目标”的过程中,通常包含以下挑战:

  • 问题难定位:传统数据治理方式难以快速、完整、精准地定位潜在问题,导致在长期执行治理工作时效率不高,同时未及时完成的治理也造成对数据成本的浪费。

  • 方法不易行:数据治理人员缺乏科学的数据治理策略和工具,无法有效地开展治理活动。

  • 成效难跟踪:缺乏及时的数据分析和治理效果跟踪,也无法快速根据目标达成情况调整治理策略。

数据治理中心是DataWorks中践行主动化、自动化数据治理理念的产品模块。为了解决以上问题,治理中心提供了多个场景化治理计划模板,包含数据稳定性治理、存储成本治理和计算成本治理,帮助用户高效设定和达成数据治理目标。

模板自带可选择的治理目标,并配套实战有效的治理策略和工具,加速用户治理目标的达成过程。此外,治理计划还提供了定期跟踪和评估治理效果的机制,以帮助数据治理团队了解治理效果,并不断提升数据治理的成效,从而打造高效、科学的可持续数据治理模式。

数据治理模板

说明

数据稳定性优化

数据稳定性优化适用于希望高效率解决现有数据运维问题的团队。核心目标为减少任务出错数,关注任务产出正确性和及时性。

存储资源优化

存储资源优化适用于存储消耗过大或异常增长的团队。核心目标为减少存储量,并对数据表能按访问热度进行不同生命周期管理。

环境要求

环境类型

说明

DataWorks版本

DataWorks版本需要为企业版。

重要
  • 针对长期使用DataWorks的用户,我们限时推出了企业版首月优惠升级活动。如果您需要实践本案例的数据治理能力,可申请参与企业版首月优惠升级活动。审批通过后,您可以使用主账号登录控制台进行版本升级,享受首月以优惠价299元升级至企业版。

  • 限时活动支持地域:华东1(杭州)、华东2(上海)、华北2(北京)、华南1(深圳)、西南1(成都)。

  • 如果您不是DataWorks用户,但期望体验DataWorks数据治理能力,可先购买DataWorks标准版或专业版,配套使用ETL模板,进行样本数据研发流程的体验和使用,包含部分任务和数据后,可再进行企业版治理能力的深度体验。

数据源类型

如需针对存储和计算的治理优化,建议使用计算引擎类型为MaxCompute或E-MapReduce。

基本流程

作为数据治理计划的负责人,在阶段工作规划和日常治理时,都离不开数据分析方法和治理工具的落地。围绕治理目标,从制定到达成的整个过程,其步骤思路可参照下图:

image

以下为您介绍典型的存储成本优化和稳定性优化的实操案例,了解治理流程如何结合DataWorks数据治理中心工具进行落地。

存储资源优化治理实施指南

存储资源优化是进行成本相关数据治理时,最常见的切入点。通过数据存储资源优化,可以有效地降低数据存储成本,提高数据存储的效率,控制数仓团队的数据成本。此外,存储资源优化还可以帮助企业更好地管理数据,提高数据的安全性和可靠性。

步骤一:明确成本治理重点,规划数据治理工作

成本治理工作的起始阶段,通常需要治理工作负责人建立一个治理框架,帮助其了解成本管理的现状,明确阶段性规划里,要治理的重点方向是什么,进而确认如何治理,以及怎样衡量治理的成功或失败。在进行存储资源优化时,需要关注如何合理地降低存储、减少备份、提高压缩比、降低总体存储费用,通过规则定义和治理检查来实现高ROI的存储治理。

以某公司数据平台团队的数据治理负责人为例,其负责本团队的数据成本管理工作,同时也是DataWorks所有数仓工作空间的管理员,日常需要进行整个数据团队的运维管理工作和成本管理工作,对数据治理相关工作进行确定和推进。

目前在年初阶段,该负责人需要针对现有数据平台的数据资源进行盘点,进行无效、低效资源分布的阶段性分析,分析完成后,开始针对本年度和本季度的数据治理工作进行规划。负责人登录DataWorks数据治理中心,结合数据治理健康评估模型开始进行分析。

登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与治理 > 数据治理中心,在右侧页面中单击进入数据治理中心

DataWorks数据治理中心已根据元数据信息,通过自带的治理经验知识库,对数据平台团队工作空间下的表、任务等资产,按治理维度进行自动化、多维度的统计分析。系统将根据知识库中包含的治理项规则,生成潜在治理问题列表。治理负责人可查看知识库,了解平台的全集治理维度和具体治理问题识别规则。

image.png

目前该负责人已明确其治理维度主要处在成本治理维度,根据实际业务要求和历史情况分析,其团队数仓任务消耗的主要成本集中在存储成本管理维度,核心目标是控制数据资源成本增长,重点关注无效、低效的存储表,推动负责人进行表资源的下线和优化。治理负责人当前的核心目标是为了在不影响业务的情况下尽可能减少存储量增量。

步骤二:选择适合的场景化治理方案,精准定位潜在治理问题

  1. 在顶部菜单栏选择治理工作台,然后在左侧结构树上选择治理计划。

  2. 单击新建计划,选择存储资源优化,系统将自动创建该模板类型的数据治理计划。image.png

  3. 配置治理计划的基本信息。

    治理负责人需确认治理计划的名称和描述,因为该计划主要面向团队协作治理,建议填写较为清晰的信息,描述清楚这个治理计划所关注的重点。可在描述中说明本次治理的背景、目标、相关范围和注意事项。

  4. 设定治理目标和达成周期。image.png

    • 核心目标:治理计划的核心目标代表着在完成各阶段治理后,所需要达成的治理效果与期望的治理量级。治理负责人需要根据存储优化治理想达成的最终评估目标进行选定,常见选择如“节约存储量”,也可切换为“存储健康分”、“治理表数量”等。

    • 在设置核心目标时,由于存储治理计划会自动选取所有和存储成本优化相关的问题识别规则,会进行治理负责人权限范围内有关的问题圈定,并根据所有问题都解决的情况下,预估该治理计划的目标最大可达成值,并填写为默认初始目标值。

      • 例如,存储治理计划会包含治理中心当日所有和节约存储量优化相关的治理项,共识别了300个问题,涉及100张表;

      • 治理负责人需要根据存储优化想直接达成的跟踪目标进行选定,如系统根据这批表进行全量治理下的存储收益进行预估,预计最大可节约存储量为500 GB,那么该计划设定的目标会默认填写为500 GB。

      • 治理负责人可根据实际期望以及时间阶段拆分,进行目标调整设置,例如,只针对治理项“长时间未访问”下的50张表进行下线治理,并根据系统预估的这批表的全量存储量为300 GB,则设定选择目标为“节约存储量”>=300 GB。

    • 起止日期:治理负责人需要根据实际情况设置治理计划完成时间。例如,治理负责人本次的目标是将所有“长时间未访问”的表全部下线,并期望15天内完成,因此直接选择截止日期到15天后。

  5. 圈选治理内容。

    如果治理负责人期望小范围治理或精细化选择治理内容,可自定义管理需要治理的内容项,如:

    • 筛选仅自己相关的待治理问题。

    • 筛选部分重点工作空间或项目下的待治理问题。

    • 筛选收益较大的治理项,取消预估收益不大的待治理问题。

    单击管理圈选明细,治理负责人可在治理问题明细表格中,针对需要重点治理的工作空间进行筛选,并在左下角的治理操作里进行批量圈选或取消圈选,确认后,系统会重新预估圈选项的最大治理成效,如和目标值差距较大,负责人可重新调整合适的治理目标值。

  6. 配置治理成员和进展通知。image.png

    治理成员:治理负责人确认了治理目标和相关问题后,系统已根据圈选问题自动将任务处理人填入,负责人可添加查看治理计划并接受治理消息的成员。

    进展通知:根据实际需求选中通知人、周期通知时间和通知方式,强烈建议填写治理团队的钉钉群、微信群或飞书群的Webhook通知地址,以便进行团队协作式数据治理的高效推动。据以往实践统计,以群推进治理工作,并开启定期提醒的治理团队可提升90%的治理效率。具体操作,请参见场景实践:发送报警消息至钉钉群

  7. 单击保存并发布,治理计划正式生效。

步骤三:充分利用治理工具,推进存储降本高效达成

  1. 治理负责人单击已创建的治理计划列表操作列的治理详情

    image.png

  2. 治理详情中了解目前治理进展,对需要重点优化的治理项和责任人进行查看分析。image.png

  3. 单击治理优化,根据具体治理需求和目标,查看收益最大的治理项问题。任务处理人及拥有问题操作权限计划负责人,都可以在页面中进行实际治理工作。image.png

  4. 治理具体的问题。

    可根据治理项的知识库说明以及列表中系统推荐的治理操作,使用相应功能进行治理,提升治理活动效果和效率。如针对“长生命周期”,判断业务侧已无需使用时,可直接进行批量选择,快速设置系统推荐的合适生命周期。针对长期无人访问表以及产出任务,可直接优雅下线及对应的无人访问的产出表。image.png

    当日实际已完成治理的内容项,在第二天会重新检查,如已完成治理,会更改为“已治理”状态,可统计及跟踪对当日具体治理收益及对治理目标的贡献比例。

步骤四:周期数据分析和效果跟踪

  1. 查看进行中的治理计划。

    任务处理人和计划负责人可每日获取数据治理计划通知,针对当前周期的治理进展和待治理工作进行分析,并对整体计划或个人还需要治理的问题进行及时查看和处置,以尽快达成治理目标。

    image.png

    单击查看当日报告,进入治理计划的周期报告模块,进行治理效果分析和跟踪。计划负责人可查看当日数据分析报告,了解治理活动的效果和趋势。可从全局视角查看每日数据治理报告,了解当日治理情况、目标达成情况和团队整体工作分布。

    image.png

    计划负责人和任务处理人都可根据数据分析结果,及时调整和优化治理策略,以取得更好的数据治理成效。

  2. 计划已达成或计划到期未达成

    • 当任务处理人治理问题带来的成效达到了系统预设的治理目标值,系统会自动将治理计划置为已达成状态,并生成整体性的治理总结,作为整个治理周期情况的分析。

    • 如治理计划到期,但目标仍未达成,系统会自动将计划置为未达成状态,同时也会生成本计划周期整体工作的总结报告。治理负责人可针对本周期未完成的工作进行了解,复制该计划,对未完成工作进行下一个周期的延续治理。

数据稳定性优化治理实施指南

稳定性治理是任何数据团队进行治理工作时最关注的基础核心,该部分工作不但关系着数据团队对于日常研发工作的产出质量判定,也和实际客户业务的可用性承诺紧密相关。

步骤一:明确数据治理方向,规划数据治理工作

某治理负责人来自某公司数仓开发团队,负责本团队的数据管理工作,同时也是团队对应的DataWorks工作空间的管理员,日常负责数据治理相关工作的确定和推进。目前需要针对本季度的数据治理工作进行规划。作为治理工作负责人,他需要建立一个治理框架,帮助其团队明确本季度要治理什么,如何治理,以及怎样衡量治理的成功或失败。

登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与治理 > 数据治理中心,在右侧页面中单击进入数据治理中心

DataWorks数据治理中心已根据元数据信息,通过自带的治理经验知识库,对数据分析团队工作空间下的表、任务等资产,按治理维度进行自动化、多维度的统计分析。系统将根据知识库中包含的治理项规则,生成潜在治理问题列表。治理负责人可查看知识库,了解平台的全集治理维度和具体治理问题识别规则。

image.png

目前该负责人了解其治理维度主要处在研发治理维度,根据实际业务要求处于数仓稳定性治理阶段,希望能够最终减少数仓出错任务数及其影响,以保障对业务侧的SLA承诺。

步骤二:选择适合的场景化治理方案,精准定位潜在治理问题

  1. 在顶部菜单栏选择治理工作台,然后在左侧结构树上选择治理计划。

  2. 单击新建计划,选择数据稳定性优化,系统将自动创建该模板类型的数据治理计划。image.png

  3. 配置治理计划的基本信息。

    治理负责人需确认治理计划的名称和描述,因为该计划主要面向团队协作治理,建议填写较为清晰的信息,描述清楚这个治理计划所关注的重点。可在描述中说明本次治理的背景、目标、相关范围和注意事项。

  4. 设定治理目标和达成周期。image.png

    • 核心目标:设置核心目标时,系统会进行治理负责人权限范围内有关的问题圈定,并根据所有问题都解决的情况下,预估该治理计划的目标的最大可达成值,并默认填写为初始目标值。例如,当日所有稳定性优化相关的治理项,识别了228个问题,则该计划设定的目标会默认填写为228个,并且当前可优化的问题数最大不超过228个。

    • 起止日期:治理负责人也可以根据实际情况设置治理计划完成时间。例如,治理负责人本次的目标是将高基线任务相关的问题全部解决,并期望15天内完成,因此直接选择全部的228个问题都需要治理,设定选择目标为“优化问题数”>=228个,修改截止日期到15天后。

  5. 圈选治理内容。

    如果治理负责人期望小范围治理或精细化选择治理内容,可自定义管理需要治理的内容项,如:

    • 筛选仅自己相关的待治理问题。

    • 筛选某些重点治理的工作空间或项目下的待治理问题。

    • 筛选收益较大的治理项,取消预估收益不大的待治理问题。

    单击管理圈选明细,针对个人场景进行筛选,您可以在左下角的治理操作里进行批量圈选或取消圈选,然后系统会重新预估圈选项的预估成效,如差距较大,治理负责人可重新设置治理目标值。

  6. 配置治理成员和进展通知。image.png

    治理成员:治理负责人确认了治理目标和相关问题后,系统已根据圈选问题自动将任务处理人填入,负责人可添加查看治理计划并接受治理消息的成员。

    进展通知:根据实际需求选中通知人、周期通知时间和通知方式,强烈建议填写治理团队的钉钉群、微信群或飞书群的Webhook通知地址。据以往实践统计,以群推进治理工作并开启定期提醒的治理团队可提升90%的治理效率。具体操作,请参见场景实践:发送报警消息至钉钉群

  7. 单击保存并发布,治理计划正式生效。

步骤三:充分利用治理工具

  1. 治理负责人单击已创建的治理计划列表操作列的治理详情image.png

  2. 治理详情中了解目前治理进展,对需要重点优化的治理项和责任人进行查看分析。image.png

  3. 单击治理优化,根据具体治理需求和目标查看收益最大的治理项问题。任务处理人及拥有问题操作权限计划负责人,都可以在页面中进行实际治理工作。image.png

  4. 查看具体的问题。

    可根据治理项的知识库说明以及列表中系统推荐的治理操作,使用相应功能进行治理,提升治理活动效果和效率。如针对“暂停节点”和“连续7天出错节点”,判断业务侧已无需使用时,可直接进行批量选择,优雅下线,整个下线的判断和处理流程都可全自动化进行。image.png

    当日实际已完成治理的内容项,在第二天会重新检查,如已完成治理,会更改为“已治理”状态,可统计及跟踪对当日具体治理收益及对治理目标的贡献比例。

  5. 开启检查项的主动拦截。

    除了对存量问题的治理,作为工作空间的管理员,还需要进行增量数据治理问题的事前管控,避免在存量治理目标需要达成的情况下又出现新的问题。数据治理中心通过配置检查项,进行增量治理问题的管控,作用于数据开发和数据提交的研发环节。

    针对不同的治理目标,系统推荐启用的检查项也是不同的。面向稳定性治理场景,系统会推荐和数据规范性、准确性、运行稳定性相关的研发维度检查项,如下:

    image.png

    治理负责人可在治理概览中,查看到可推进开启的检查项,并进入对应管理的工作空间,按需进行开启。开启后,负责人可了解到在这个周期中主动校验和拦截的问题数,从而跟进主动治理的成效。

步骤四:周期数据分析和效果跟踪

  1. 查看进行中的治理计划。

    任务处理人和计划负责人可每日获取数据治理计划通知,针对当前周期的治理进展和待治理工作进行分析,并对整体计划或个人还需要治理的问题进行及时查看和处置,以尽快达成治理目标。

    image.png

    单击查看当日报告,进入治理计划的周期报告模块,进行治理效果分析和跟踪。计划负责人可查看当日数据分析报告,了解治理活动的效果和趋势。可从全局视角查看每日数据治理报告,了解当日治理情况、目标达成情况和团队整体工作分布。

    image.png

    计划负责人和任务处理人都可根据数据分析结果,及时调整和优化治理策略,以取得更好的数据治理成效。

  2. 计划已达成或计划到期未达成

    • 当任务处理人治理问题带来的成效达到了系统预设的治理目标值,系统会自动将治理计划置为已达成状态,并生成整体性的治理总结,作为整个治理周期情况的分析。

    • 如治理计划到期,但目标仍未达成,系统会自动将计划置为未达成状态,同时也会生成本计划周期整体工作的总结报告。治理负责人可针对本周期未完成的工作进行了解,复制该计划,对未完成工作进行下一个周期的延续治理。

总结

通过上述步骤操作,数据治理相关用户可充分利用数据治理中心的能力,实施数字化治理策略,打造可持续运营的数据治理管理体系,从而达成提效的目的:

  • 提升数据治理人员精准定位潜在问题的效率

  • 提升数据治理人员解决问题的效率

  • 提升数据治理负责人对治理成效分析统计的效率

在数据治理的时代,数据治理中心将为企业提供更加专业、灵活、高效的数据治理方案,为企业数据管理带来新的思路和新的变革。目前,我们针对内置的场景化数据治理模板还在继续更新,从而满足更准确可靠的治理目标以及更安全自动的治理操作。

联系我们

如果您在使用过程中有任何疑问或需要进一步支持,欢迎加入钉群联系我们。