任务开发上线之后,数据正在稳定生产中,您需要对对应的业务表通过可视化查看、自动的数据质量监控、敏感数据管理等多种不同方式进行治理,而以下这些模块就可以很好的帮助您对数据进行治理。

可视化元数据管理

数据地图可以可视化的查看表Schema、产出信息、血缘信息等,不需要通过SQL命令,即可快速的了解业务表的概貌和更多高级的元数据信息。数据地图的详细操作请参见数据地图概述8

数据质量监控

应用场景

从完整性、准确性、有效性、一致性、唯一性和及时性等多个维度对产出表数据进行校验,自动拦截问题任务,有效阻断脏数据向下游蔓延,避免非正常数据影响使用和业务决策。

监控逻辑

实例(ds_mbr_use_info)产出一张表(ods_mbr_use_info),写入完成后触发两个数据质量强规则表行数>0业务主键唯一校验,执行规则表行数采样值为0,不符合表行数>0,触发强规则红色报警且将实例(ods_mbr_use_info)置为失败,下游实例(dim_ec_mbr_user_info)会被阻塞。废弃数据不会往下流,等待责任人及时处理至成功,实例(dim_ec_mbr_user_info)继续运行。数据治理

配置数据质量规则

对生产表(retail_e_commerce_2.ods_mbr_user_info)配置表行数不为0业务主键唯一规则校验。配置使用按表配置,详细操作步骤请参见配置规则:按表(单表),以下为配置要点。

  1. 配置分区表达式ds=$[yyyymmdd-1]
    11
  2. 创建规则。
    12
    参数规则(表行数不为0)规则(业务主键唯一)
    规则名称表行数不为0业务主键唯一
    强弱
    动态阈值
    规则来源内置模板内置模板
    规则字段表级规则(table)id(bigint)
    规则模板表行数,固定值重复值个数,固定值
    比较方式大于小于
    期望值01
    启停状态开启开启
    描述表行数>0ID唯一
  3. 关联调度节点ods_mbr_user_info。DQC规则会在产出任务完成后被触发,对匹配到的分区内的数据进行规则校验。
    13
  4. 订阅管理选择钉钉机器人订阅,并输入WebHook地址。
    14
    说明 钉钉群机器人需加上DataWorks关键字才可以接收到DataWorks发送的信息。具体操作,请参见规则管理

敏感数据保护

对于业务中对数据保护的需求,您可以将数据进行动态或静态脱敏,在当前实验中,会将表(retail_e_commerce_2.dim_ec_mbr_user_info)中的手机号码、IP地址等敏感字段进行动态脱敏处理。具体操作请参见下文指导,更多数据保护伞功能介绍请参见数据保护伞

支持脱敏的类型

分类概念脱敏场景
动态脱敏用户在查询敏感数据时在页面展示脱敏后的数据。当前DataWorks为您内置了全局配置、展示脱敏、数据分析脱敏、底层脱敏等脱敏场景,子场景为动态脱敏的典型应用场景。
静态脱敏将数据脱敏后存储到指定的数据库位置。当前DataWorks为您内置了数据集成脱敏场景,子场景为静态脱敏的典型应用场景。

实现动态脱敏步骤

本次实验对生产表(retail_e_commerce_2.dim_ec_mbr_user_info)的reg_mobile_phone字段和user_regip字段动态脱敏展示。

首先需要配置数据识别规则,将表(dim_ec_mbr_user_info)中的reg_mobile_phone字段和user_regip字段识别为敏感数据,再配置数据脱敏规则,查询时根据脱敏规则将返回结果脱敏展示。

  1. 预期脱敏效果。
    脱敏前:15
    脱敏后:16
  2. 工作空间启动页面查询内容脱敏。
    17
  3. 配置数据识别规则。
    参数reg_mobile_phoneuser_regip
    敏感字段类型retail_e_commerce_2_手机retail_e_commerce_2_ip
    所属分类基础数据基础数据
    所属分级敏感敏感
    描述信息--
    识别规则命中条件满足以下任一条件即命中规则满足以下任一条件即命中规则
    数据内容识别内置识别规则-手机号-测试数据“1726342****”内置识别规则-IP-测试数据“127.X.X.XX”
    字段注释识别--
    字段名称识别
    • retail_e_commerce_2.dim_ec_mbr_user_info.reg_mobile_phone
    • retail_e_commerce_2_dev.dim_ec_mbr_user_info.reg_mobile_phone
    • retail_e_commerce_2.dim_ec_mbr_user_info.user_regip
    • retail_e_commerce_2_dev.dim_ec_mbr_user_info.user_regip
    字段排除--
    命中率配置50%50%
    18
  4. 配置数据脱敏规则。
    19
    参数reg_mobile_phoneuser_regip
    敏感字段类型retail_e_commerce_2_手机retail_e_commerce_2_ip
    脱敏规则名称retail_e_commerce_2_手机retail_e_commerce_2_ip
    脱敏方式掩盖,使用推荐方式“只展示前三后四”掩盖,使用推荐方式“默认”
    样本数据172XXXX9107127.X.X.X
    脱敏效果172****9107127.*.*.*