任务开发上线之后,数据正在稳定生产中,您需要对对应的业务表通过可视化查看、自动的数据质量监控、敏感数据管理等多种不同方式进行治理,而以下这些模块就可以很好的帮助您对数据进行治理。
可视化元数据管理
数据地图可以可视化的查看表Schema、产出信息、血缘信息等,不需要通过SQL命令,即可快速地了解业务表的概貌和更多高级的元数据信息。数据地图的详细操作请参见数据地图概述。
数据质量监控
应用场景
从完整性、准确性、有效性、一致性、唯一性和及时性等多个维度对产出表数据进行校验,自动拦截问题任务,有效阻断脏数据向下游蔓延,避免非正常数据影响使用和业务决策。
监控逻辑
实例(ods_mbr_use_info)产出一张表(ods_mbr_use_info),写入完成后触发两个数据质量强规则表行数大于0校验,执行规则表行数采样值为0,不符合表行数大于0,触发强规则红色报警且将实例(ods_mbr_use_info)置为失败,下游实例(dim_ec_mbr_user_info)会被阻塞。废弃数据不会往下流,等待责任人及时处理至成功,实例(dim_ec_mbr_user_info)继续运行。
配置数据质量规则
对生产表(retail_e_commerce_2.ods_mbr_user_info)配置表行数大于0规则校验。配置使用按表配置,详细操作步骤请参见配置规则:按表(单表),以下为配置要点。
配置质量监控。
配置监控规则。
订阅管理选择钉钉机器人订阅,并输入WebHook地址。
说明钉钉群机器人需加上DataWorks关键字才可以接收到DataWorks发送的信息。具体操作,请参见规则管理。
敏感数据保护
对于业务中对数据保护的需求,您可以将数据进行动态或静态脱敏,在当前实验中,会将表(retail_e_commerce_2.dim_ec_mbr_user_info)中的手机号码、IP地址等敏感字段进行动态脱敏处理。具体操作请参见下文指导,更多数据保护伞功能介绍请参见数据保护伞。
支持脱敏的类型
分类 | 概念 | 脱敏场景 |
动态脱敏 | 用户在查询敏感数据时在页面展示脱敏后的数据。 | 当前DataWorks为您内置了全局配置、展示脱敏、数据分析脱敏、底层脱敏等脱敏场景,子场景为动态脱敏的典型应用场景。 |
静态脱敏 | 将数据脱敏后存储到指定的数据库位置。 | 当前DataWorks为您内置了数据集成脱敏场景,子场景为静态脱敏的典型应用场景。 |
实现动态脱敏步骤
本次实验对生产表(retail_e_commerce_2.dim_ec_mbr_user_info)的reg_mobile_phone字段和user_regip字段动态脱敏展示。
首先需要配置数据识别规则,将表(dim_ec_mbr_user_info)中的reg_mobile_phone字段和user_regip字段识别为敏感数据,再配置数据脱敏规则,查询时根据脱敏规则将返回结果脱敏展示。
预期脱敏效果。
脱敏前:
脱敏后:
工作空间启动页面查询内容脱敏。
配置数据识别规则。
参数
reg_mobile_phone
user_regip
敏感字段类型
retail_e_commerce_2_手机
retail_e_commerce_2_ip
所属分类
基础数据
基础数据
所属分级
敏感
敏感
描述信息
-
-
识别规则命中条件
满足以下任一条件即命中规则
满足以下任一条件即命中规则
数据内容识别
内置识别规则-手机号-测试数据“1726342****”
内置识别规则-IP-测试数据“127.X.X.XX”
字段注释识别
-
-
字段名称识别
retail_e_commerce_2.dim_ec_mbr_user_info.reg_mobile_phone
retail_e_commerce_2_dev.dim_ec_mbr_user_info.reg_mobile_phone
retail_e_commerce_2.dim_ec_mbr_user_info.user_regip
retail_e_commerce_2_dev.dim_ec_mbr_user_info.user_regip
字段排除
-
-
命中率配置
50%
50%
配置数据脱敏规则。
参数
reg_mobile_phone
user_regip
敏感字段类型
retail_e_commerce_2_手机
retail_e_commerce_2_ip
脱敏规则名称
retail_e_commerce_2_手机
retail_e_commerce_2_ip
脱敏方式
掩盖,使用推荐方式“只展示前三后四”
掩盖,使用推荐方式“默认”
样本数据
172XXXX9107
127.X.X.X
脱敏效果
172****9107
127.*.*.*