文档

数据质量监控

更新时间:

数据质量监控模块为您提供数据表开发的跟踪管理功能。

数据质量监控的界面如下图所示,默认显示当前项目接入的“现场开发”类的全部数据表,可切换显示项目中“同步专网”或“产品部署”类数据表。其中:

  • 现场开发类表:可选择显示总数据表、未完成的数据表、已暂停开发的数据表或质量较差的数据表。

  • 同步专网和产品部署类表:可选择显示总数据表或质量较差的数据表;同时显示产出异常(任务停止和运行失败)的数据表数,您可通过设置“开发状态”筛选停止运行或运行失败的表来查看确认。

image.png

界面参数说明如下表所示。

参数名称

参数说明

表名

数据库中存储的物理表名称。其中,带星号标志的表为接口返回的“重点关注表”。

点击表名可查看表详情。

描述

物理表的中文描述。

开发负责人

负责物理表开发的数据开发者。

应用领域

数据表的应用领域,具体应用领域与您的项目领域相关。

存储数据库

表的存储数据库包括:MaxCompute、RDS For MySQL、RDS For PostgreSQL、Datahub Service、Table Store、Hive、Hbase、Hbase Phoenix、Kafka。 可查看各数据表存储的数据库。

数据质量

数据表的数据质量,点击刷新按钮,可刷新数据质量。数据质量状态说明如下:

  • 优秀(绿灯):没有命中规则。

  • 一般(黄灯):命中数据表的弱规则,建议您根据实际情况使用。

  • 较差(红灯):命中数据表的强规则,请联系数据开发者修改。

说明

  • 质量较差表细分为两种:如果质量差有下游表,即该表可能影响下游表的质量,以“较差!”的形式表示,鼠标移动至“!”处可提示其下游表数;如果质量差的表无下游表,即该表本身质量差但不影响其他表,以“较差”的形式表示。

  • 当数据质量状态为“运行失败”时,鼠标点击或移动至报警点,可查看失败原因。

开发状态

数据表的开发状态,包括:已完成、未完成、暂停。

任务状态

同步专网和产品部署类表的任务状态,包括:任务未配置、未到调度周期、运行成功、运行中、等待运行、任务停止、运行失败。

操作

数据表可执行的操作,包括数据表的确认完成/回退开发(仅现场开发类表需要执行)、暂停开发和删除表。

加入原因

显示数据表来源,包括:手工导入、接口导入和血缘追溯。对于接口导入和血缘追溯的表,可点击查看具体的接口信息或血缘信息。

在当前模块,您可对数据表执行筛选、分配,以及开发确认等操作。

数据表筛选

如下图所示,当显示的数据类型及其列表确定后,您可以通过设定“开发负责人”、“应用领域”、“数据质量”以及“开发状态”等参数筛选数据表,或通过表名搜索定位到具体数据表(支持模糊搜索)。

数据表筛选-新

数据表分配

完成数据表筛选后,点击界面右上角的分配开发任务按钮,可为数据表分配开发责任人。

  1. 勾选需要分配的数据表。

  2. 点击分配开发任务按钮。

  3. 在显示的任务分配窗口选择开发负责人。

数据表开发确认

仅现场开发类数据表需要执行开发确认操作,且只有数据表的开发负责人可执行该操作。

数据表的开发确认操作包括数据表的开发/暂停、确认完成/回退开发以及删除等操作。

  • 开发:数据表默认处于开发状态。

  • 暂停:如您需要暂停某张数据表的开发,关闭开发开关,即可暂停该表的开发,此时数据表的“开发状态”变更为“暂停”。

  • 确认完成:如您的数据表已开发完成,点击操作栏的确认完成按钮。确认完成后数据表的“开发状态”变更为“已完成”,表示该表的开发工作已完成,同时启动该表质量规则的监控,您将会收到相关的质量报警。

  • 回退开发:对于“开发状态”为“已完成”的数据表,点击回退开发按钮,可重新开发此物理表。此时,该数据表的“开发状态”变回“未完成”,平台停止对该表质量规则的监控报警。

  • 删除:点击删除按钮可删除数据表。

说明
  • 暂停数据表的开发会影响算法产出指标的精准度,建议您仅在确定无法提供某张表的数据时执行暂停操作。

  • 数据表的开发责任人需要维护您负责表的数据质量并及时解决质量问题,避免因表的数据质量影响下游表的产出质量。