数据血缘

更新时间:
复制为 MD 格式

使用DataWorks数据地图查看表或数据服务API时,可在对应的详情页面查看详细的血缘信息,这对于数据溯源及管理有很大帮助,本文为您介绍数据地图的血缘查看能力。

表血缘

查看入口

在数据地图模块,查找某张表并进入表详情页面后,单击血缘信息页签查看表级字段级的血缘详情。同时,您也可以进行影响分析,获取当前表的下游表列表,支持将下游表列表下载为本地文件或通过邮件进行变更通知。

说明

数据地图支持展示基于调度作业、数据流转信息解析得出的表和表、字段和字段之间的血缘关系;暂不包含临时查询等手动操作产生的血缘关系。离线数据T+1更新其血缘关系。

image.png

各数据源使用限制

E-MapReduce

  • DataLake或自定义集群若要在DataWorks管理元数据,需先在集群侧配置EMR-HOOK。若未配置,则在DataWorks中无法展示血缘关系。配置EMR-HOOK,详情请参见配置HiveEMR-HOOK

  • EMR on ACK类型的Spark集群不支持查看血缘,EMR Serverless Spark集群支持查看血缘。

  • EMR Presto节点的任务不支持查看血缘关系。

StarRocks

StarRocks Serverless集群的元数据、血缘分析能力由集群的FE配置参数stmt_event_listeners控制,您可以修改此参数来控制是否启用元数据、血缘分析能力,添加或移除其他基于Statement Event分析的能力。

参数说明

FE配置参数名:stmt_event_listeners

默认值:com.starrocks.qe.events.listener.LineageStmtEventListener,表示启用元数据、血缘分析能力。

如需关闭,请将stmt_event_listeners配置为,,表示接收逗号分隔的类名。

说明
  • 如果将stmt_event_listeners配置为空(取值清空,不配置内容),则系统将使用默认值,启用元数据、血缘分析能力。

  • 该参数随StarRocks Serverless集群的3.1.13版本、3.2.9版本及以后的版本开放,如果您的StarRocks Serverless集群FE配置参数中无stmt_event_listeners参数,则暂不支持开启元数据、血缘分析能力。如需启用,请查看当前集群版本,评估是否升级,具体操作,请参见版本升级

各数据源血缘展示情况说明

数据源

数据集成

数据开发

表级血缘

字段级血缘

表级血缘

字段级血缘

E-MapReduce

支持详情页

支持详情页-血缘信息

支持离线同步

(OSS、Hive)

不支持实时同步

支持离线同步

(OSS、Hive)

不支持实时同步

Hive、Spark(spark-submit)、Spark SQL(支持Hudi格式)、Shell(使用beeline提交的Hive SQL)

支持insert into /insert overwrite table

支持create as select from table

不支持create external table

Hive、Spark(spark-submit)、Spark SQL(支持Hudi格式)、Shell(使用beeline提交的Hive SQL)

支持insert into /insert overwrite table

支持create as select from table

不支持create external table

StarRocks

支持详情页

支持详情页-血缘信息

不支持离线同步

不支持实时同步

不支持离线同步

不支持实时同步

支持insert into /insert overwrite table

支持create as select from table

不支持create external table

支持insert into /insert overwrite table

支持create as select from table

不支持create external table

支持:表示支持;不支持:表示不支持。

数据服务API血缘

查找某个数据服务API并进入API详情页面后,您可以单击血缘信息页签,查看API的血缘详情。

image.png