文档

数据治理

更新时间:

任务开发上线之后,数据正在稳定生产中,您需要对对应的业务表通过可视化查看、自动的数据质量监控、敏感数据管理等多种不同方式进行治理,而以下这些模块就可以很好的帮助您对数据进行治理。

可视化元数据管理

数据地图可以可视化的查看表Schema、产出信息、血缘信息等,不需要通过SQL命令,即可快速的了解业务表的概貌和更多高级的元数据信息。数据地图的详细操作请参见数据地图概述8

数据质量监控

应用场景

从完整性、准确性、有效性、一致性、唯一性和及时性等多个维度对产出表数据进行校验,自动拦截问题任务,有效阻断脏数据向下游蔓延,避免非正常数据影响使用和业务决策。

监控逻辑

实例(ds_mbr_use_info)产出一张表(ods_mbr_use_info),写入完成后触发两个数据质量强规则表行数>0业务主键唯一校验,执行规则表行数采样值为0,不符合表行数>0,触发强规则红色报警且将实例(ods_mbr_use_info)置为失败,下游实例(dim_ec_mbr_user_info)会被阻塞。废弃数据不会往下流,等待责任人及时处理至成功,实例(dim_ec_mbr_user_info)继续运行。数据治理

配置数据质量规则

对生产表(retail_e_commerce_2.ods_mbr_user_info)配置表行数不为0业务主键唯一规则校验。配置使用按表配置,详细操作步骤请参见配置规则:按表(单表),以下为配置要点。

  1. 配置分区表达式ds=$[yyyymmdd-1]

    11

  2. 创建规则。

    12

    参数

    规则(表行数不为0)

    规则(业务主键唯一)

    规则名称

    表行数不为0

    业务主键唯一

    强弱

    动态阈值

    规则来源

    内置模板

    内置模板

    规则字段

    表级规则(table)

    id(bigint)

    规则模板

    表行数,固定值

    重复值个数,固定值

    比较方式

    大于

    小于

    期望值

    0

    1

    启停状态

    开启

    开启

    描述

    表行数>0

    ID唯一

  3. 关联调度节点ods_mbr_user_info。DQC规则会在产出任务完成后被触发,对匹配到的分区内的数据进行规则校验。

    13

  4. 订阅管理选择钉钉机器人订阅,并输入WebHook地址。

    14

    说明

    钉钉群机器人需加上DataWorks关键字才可以接收到DataWorks发送的信息。具体操作,请参见规则管理

敏感数据保护

对于业务中对数据保护的需求,您可以将数据进行动态或静态脱敏,在当前实验中,会将表(retail_e_commerce_2.dim_ec_mbr_user_info)中的手机号码、IP地址等敏感字段进行动态脱敏处理。具体操作请参见下文指导,更多数据保护伞功能介绍请参见数据保护伞

支持脱敏的类型

分类

概念

脱敏场景

动态脱敏

用户在查询敏感数据时在页面展示脱敏后的数据。

当前DataWorks为您内置了全局配置、展示脱敏、数据分析脱敏、底层脱敏等脱敏场景,子场景为动态脱敏的典型应用场景。

静态脱敏

将数据脱敏后存储到指定的数据库位置。

当前DataWorks为您内置了数据集成脱敏场景,子场景为静态脱敏的典型应用场景。

实现动态脱敏步骤

本次实验对生产表(retail_e_commerce_2.dim_ec_mbr_user_info)的reg_mobile_phone字段和user_regip字段动态脱敏展示。

首先需要配置数据识别规则,将表(dim_ec_mbr_user_info)中的reg_mobile_phone字段和user_regip字段识别为敏感数据,再配置数据脱敏规则,查询时根据脱敏规则将返回结果脱敏展示。

  1. 预期脱敏效果。

    脱敏前:15

    脱敏后:16

  2. 工作空间启动页面查询内容脱敏。

    17

  3. 配置数据识别规则。

    参数

    reg_mobile_phone

    user_regip

    敏感字段类型

    retail_e_commerce_2_手机

    retail_e_commerce_2_ip

    所属分类

    基础数据

    基础数据

    所属分级

    敏感

    敏感

    描述信息

    -

    -

    识别规则命中条件

    满足以下任一条件即命中规则

    满足以下任一条件即命中规则

    数据内容识别

    内置识别规则-手机号-测试数据“1726342****”

    内置识别规则-IP-测试数据“127.X.X.XX”

    字段注释识别

    -

    -

    字段名称识别

    • retail_e_commerce_2.dim_ec_mbr_user_info.reg_mobile_phone

    • retail_e_commerce_2_dev.dim_ec_mbr_user_info.reg_mobile_phone

    • retail_e_commerce_2.dim_ec_mbr_user_info.user_regip

    • retail_e_commerce_2_dev.dim_ec_mbr_user_info.user_regip

    字段排除

    -

    -

    命中率配置

    50%

    50%

    18

  4. 配置数据脱敏规则。

    19

    参数

    reg_mobile_phone

    user_regip

    敏感字段类型

    retail_e_commerce_2_手机

    retail_e_commerce_2_ip

    脱敏规则名称

    retail_e_commerce_2_手机

    retail_e_commerce_2_ip

    脱敏方式

    掩盖,使用推荐方式“只展示前三后四”

    掩盖,使用推荐方式“默认”

    样本数据

    172XXXX9107

    127.X.X.X

    脱敏效果

    172****9107

    127.*.*.*

  • 本页导读 (1)
文档反馈