任务开发上线之后,数据正在稳定生产中,您需要对对应的业务表通过可视化查看、自动的数据质量监控、敏感数据管理等多种不同方式进行治理,而以下这些模块就可以很好的帮助您对数据进行治理。
可视化元数据管理
数据地图可以可视化的查看表Schema、产出信息、血缘信息等,不需要通过SQL命令,即可快速的了解业务表的概貌和更多高级的元数据信息。数据地图的详细操作请参见数据地图概述。

数据质量监控
应用场景
从完整性、准确性、有效性、一致性、唯一性和及时性等多个维度对产出表数据进行校验,自动拦截问题任务,有效阻断脏数据向下游蔓延,避免非正常数据影响使用和业务决策。
监控逻辑
实例(ds_mbr_use_info)产出一张表(ods_mbr_use_info),写入完成后触发两个数据质量强规则表行数>0和业务主键唯一校验,执行规则表行数采样值为0,不符合表行数>0,触发强规则红色报警且将实例(ods_mbr_use_info)置为失败,下游实例(dim_ec_mbr_user_info)会被阻塞。废弃数据不会往下流,等待责任人及时处理至成功,实例(dim_ec_mbr_user_info)继续运行。

配置数据质量规则
对生产表(retail_e_commerce_2.ods_mbr_user_info)配置表行数不为0和业务主键唯一规则校验。配置使用按表配置,详细操作步骤请参见配置规则:按表(单表),以下为配置要点。
- 配置分区表达式ds=$[yyyymmdd-1]。
- 创建规则。
参数 规则(表行数不为0) 规则(业务主键唯一) 规则名称 表行数不为0 业务主键唯一 强弱 强 强 动态阈值 否 否 规则来源 内置模板 内置模板 规则字段 表级规则(table) id(bigint) 规则模板 表行数,固定值 重复值个数,固定值 比较方式 大于 小于 期望值 0 1 启停状态 开启 开启 描述 表行数>0 ID唯一 - 关联调度节点ods_mbr_user_info。DQC规则会在产出任务完成后被触发,对匹配到的分区内的数据进行规则校验。
- 订阅管理选择钉钉机器人订阅,并输入WebHook地址。说明 钉钉群机器人需加上DataWorks关键字才可以接收到DataWorks发送的信息。具体操作,请参见规则管理。
敏感数据保护
对于业务中对数据保护的需求,您可以将数据进行动态或静态脱敏,在当前实验中,会将表(retail_e_commerce_2.dim_ec_mbr_user_info)中的手机号码、IP地址等敏感字段进行动态脱敏处理。具体操作请参见下文指导,更多数据保护伞功能介绍请参见数据保护伞。
支持脱敏的类型
分类 | 概念 | 脱敏场景 |
---|---|---|
动态脱敏 | 用户在查询敏感数据时在页面展示脱敏后的数据。 | 当前DataWorks为您内置了全局配置、展示脱敏、数据分析脱敏、底层脱敏等脱敏场景,子场景为动态脱敏的典型应用场景。 |
静态脱敏 | 将数据脱敏后存储到指定的数据库位置。 | 当前DataWorks为您内置了数据集成脱敏场景,子场景为静态脱敏的典型应用场景。 |
实现动态脱敏步骤
本次实验对生产表(retail_e_commerce_2.dim_ec_mbr_user_info)的reg_mobile_phone字段和user_regip字段动态脱敏展示。
首先需要配置数据识别规则,将表(dim_ec_mbr_user_info)中的reg_mobile_phone字段和user_regip字段识别为敏感数据,再配置数据脱敏规则,查询时根据脱敏规则将返回结果脱敏展示。
- 预期脱敏效果。脱敏前:脱敏后:
- 工作空间启动页面查询内容脱敏。
- 配置数据识别规则。
参数 reg_mobile_phone user_regip 敏感字段类型 retail_e_commerce_2_手机 retail_e_commerce_2_ip 所属分类 基础数据 基础数据 所属分级 敏感 敏感 描述信息 - - 识别规则命中条件 满足以下任一条件即命中规则 满足以下任一条件即命中规则 数据内容识别 内置识别规则-手机号-测试数据“1726342****” 内置识别规则-IP-测试数据“127.X.X.XX” 字段注释识别 - - 字段名称识别 - retail_e_commerce_2.dim_ec_mbr_user_info.reg_mobile_phone
- retail_e_commerce_2_dev.dim_ec_mbr_user_info.reg_mobile_phone
- retail_e_commerce_2.dim_ec_mbr_user_info.user_regip
- retail_e_commerce_2_dev.dim_ec_mbr_user_info.user_regip
字段排除 - - 命中率配置 50% 50% - 配置数据脱敏规则。
参数 reg_mobile_phone user_regip 敏感字段类型 retail_e_commerce_2_手机 retail_e_commerce_2_ip 脱敏规则名称 retail_e_commerce_2_手机 retail_e_commerce_2_ip 脱敏方式 掩盖,使用推荐方式“只展示前三后四” 掩盖,使用推荐方式“默认” 样本数据 172XXXX9107 127.X.X.X 脱敏效果 172****9107 127.*.*.*