数据血缘
使用DataWorks数据地图查看表或数据服务API时,可在对应的详情页面查看详细的血缘信息,这对于数据溯源及管理有很大帮助,本文为您介绍数据地图的血缘查看能力。
表血缘
查看入口
在数据地图模块,查找某张表并进入表详情页面后,单击血缘信息页签查看表级和字段级的血缘详情。同时,您也可以进行影响分析,获取当前表的下游表列表,支持将下游表列表下载为本地文件或通过邮件进行变更通知。
数据地图支持展示基于调度作业、数据流转信息解析得出的表和表、字段和字段之间的血缘关系;暂不包含临时查询等手动操作产生的血缘关系。离线数据T+1更新其血缘关系。

各数据源使用限制
E-MapReduce
DataLake或自定义集群若要在DataWorks管理元数据,需先在集群侧配置EMR-HOOK。若未配置,则在DataWorks中无法展示血缘关系。配置EMR-HOOK,详情请参见配置Hive的EMR-HOOK。
EMR on ACK类型的Spark集群不支持查看血缘,EMR Serverless Spark集群支持查看血缘。
EMR Presto节点的任务不支持查看血缘关系。
StarRocks
StarRocks Serverless集群的元数据、血缘分析能力由集群的FE配置参数stmt_event_listeners控制,您可以修改此参数来控制是否启用元数据、血缘分析能力,添加或移除其他基于Statement Event分析的能力。
参数说明
FE配置参数名:stmt_event_listeners。
默认值:com.starrocks.qe.events.listener.LineageStmtEventListener,表示启用元数据、血缘分析能力。
如需关闭,请将stmt_event_listeners配置为,,表示接收逗号分隔的类名。
如果将
stmt_event_listeners配置为空(取值清空,不配置内容),则系统将使用默认值,启用元数据、血缘分析能力。该参数随StarRocks Serverless集群的3.1.13版本、3.2.9版本及以后的版本开放,如果您的StarRocks Serverless集群FE配置参数中无
stmt_event_listeners参数,则暂不支持开启元数据、血缘分析能力。如需启用,请查看当前集群版本,评估是否升级,具体操作,请参见版本升级。
各数据源血缘展示情况说明
数据源 | 数据集成 | 数据开发 | ||
表级血缘 | 字段级血缘 | 表级血缘 | 字段级血缘 | |
E-MapReduce 详情页 详情页-血缘信息 | 离线同步 (OSS、Hive) 实时同步 | 离线同步 (OSS、Hive) 实时同步 | Hive、Spark(spark-submit)、Spark SQL(支持Hudi格式)、Shell(使用beeline提交的Hive SQL) insert into /insert overwrite table create as select from table create external table | Hive、Spark(spark-submit)、Spark SQL(支持Hudi格式)、Shell(使用beeline提交的Hive SQL) insert into /insert overwrite table create as select from table create external table |
StarRocks 详情页 详情页-血缘信息 | 离线同步 实时同步 | 离线同步 实时同步 | insert into /insert overwrite table create as select from table create external table | insert into /insert overwrite table create as select from table create external table |
:表示支持;:表示不支持。
数据服务API血缘
查找某个数据服务API并进入API详情页面后,您可以单击血缘信息页签,查看API的血缘详情。
