使用DataWorks数据地图查看表或数据服务API时,可在对应的详情页面查看详细的血缘信息,这对于数据溯源及管理有很大帮助。当前控制台按EMR Hive、Data Lake Formation(DLF)与数据湖构建(DLF-Legacy)等类型纳管计算与元数据,本文与您在数据地图、数据开发中看到的分类保持一致,并说明各类型下的血缘查看方式。
表血缘
查看入口
在数据地图模块,查找某张表并进入表详情页面后,单击血缘信息页签查看表级和字段级的血缘详情。同时,您也可以进行影响分析,获取当前表的下游表列表,支持将下游表列表下载为本地文件或通过邮件进行变更通知。
数据地图支持展示基于调度作业、数据流转信息解析得出的表和表、字段和字段之间的血缘关系;暂不包含临时查询等手动操作产生的血缘关系。离线数据T+1更新其血缘关系。

各数据源使用限制
EMR Hive、DLF 与 DLF-Legacy
-
EMR Hive:EMR集群若要在DataWorks管理元数据, 需先在集群侧配置EMR-HOOK 。若未配置,则在DataWorks中无法展示血缘关系。配置EMR-HOOK,详情请参见配置Hive的EMR-HOOK。
-
DLF 与 DLF-Legacy:Data Lake Formation(DLF)及数据湖构建(DLF-Legacy)中的表,在通过元数据采集纳入数据地图后,当计算任务基于Serverless Spark、 Serverless StarRocks 或 Serverless Flink 引擎使用相应 DLF 元数据时,支持在数据地图中展示血缘;其他引擎或场景是否展示血缘,取决于对应元数据采集与解析能力。详情请参见元数据采集。
重要Serverless Spark引擎、Serverless StarRocks引擎和Serverless Flink引擎需绑定到DataWorks工作空间,否则对应血缘会被认为与DataWorks无关而被忽略。
-
EMR Hive 计算集群相关:EMR on ACK类型的Spark集群不支持查看血缘,EMR Serverless Spark集群支持查看血缘。
-
EMR Hive 计算集群相关:EMR Presto节点的任务不支持查看血缘关系。
-
EMR Impala 引擎:EMR Impala 任务的血缘采集依赖 Impala 自身的血缘日志。需要在 EMR 集群的 集群服务 > Impala > 配置 中,将参数
lineage_event_log_dir配置为/mnt/disk1/log/impala/lineage_log并重启 Impala 服务,DataWorks 数据地图即可展示 EMR Impala 任务的表级和字段级血缘。说明-
仅支持 EMR DataLake 集群的 Impala 任务。HMS(对应数据源类型 EMR Hive)和 DLF(对应数据源类型 DLF)两种元数据均支持。
-
对 EMR 集群版本和 Impala 版本无要求,集群中部署有 Impala 即可。
-
该能力当前处于灰度开放阶段,使用前请提交工单或联系阿里云技术支持开通。
-
StarRocks
StarRocks Serverless集群的元数据、血缘分析能力由集群的FE配置参数stmt_event_listeners控制,您可以修改此参数来控制是否启用元数据、血缘分析能力,添加或移除其他基于Statement Event分析的能力。
参数说明
FE配置参数名:stmt_event_listeners。
默认值:com.starrocks.qe.events.listener.LineageStmtEventListener,表示启用元数据、血缘分析能力。
如需关闭,请将stmt_event_listeners配置为,,表示接收逗号分隔的类名。
-
如果将
stmt_event_listeners配置为空(取值清空,不配置内容),则系统将使用默认值,启用元数据、血缘分析能力。 -
该参数随StarRocks Serverless集群的3.1.13版本、3.2.9版本及以后的版本开放,如果您的StarRocks Serverless集群FE配置参数中无
stmt_event_listeners参数,则暂不支持开启元数据、血缘分析能力。如需启用,请查看当前集群版本,评估是否升级,具体操作,请参见版本升级。
AnalyticDB for MySQL
-
在对应引擎执行SQL
set adb_config RC_LINEAGE_INFO_LOG_ENABLE=true,开启AnalyticDB for MySQL实例的数据血缘功能。 -
当元数据来源为AnalyticDB for Spark类型时,支持自动采集。
-
当元数据来源为AnalyticDB for Spark类型时,配置spark参数
spark.sql.queryExecutionListeners = com.aliyun.dataworks.meta.lineage.LineageListener后,可支持实时血缘。
对于AnalyticDB for MySQL类型的表,部分SQL处理命令不支持在数据地图中生成血缘关系信息,限制详情如下。
-
不支持展示血缘的SQL命令:
不支持的SQL
示例
不支持
join、union,或使用了*等关键字。例如,以下SQL中使用了
*,数据地图无法展示血缘关系。INSERT INTO test SELECT * FROM test1, test2 WHERE test1.id = test2.id不支持子查询。
例如,以下SQL中包含子查询,数据地图无法展示血缘关系。
SELECT column1, column2 FROM table1 WHERE column3 IN (SELECT column4 FROM table2 WHERE column5 = 'value') -
可正常展示血缘的SQL命令示例:
-
示例1:创建名为A的表(不包含具体列信息),同时从B表中选择某些具体列(不包含*)作为A表的内容。例如:
CREATE TABLE test AS SELECT id,name FROM test1; -
示例2:将表A中满足条件column1= value1的某些具体列(不包含*)数据插入到表B(不包含具体列信息)中。例如:
INSERT INTO test SELECT id,name FROM test1 WHERE name='test'; -
示例3:将A表的某些列(不包含*)数据覆盖写入到某个数据库中的B表中。例如:
INSERT OVERWRITE INTO db_name.test SELECT id,name FROM test1;
-
CDH
如果需要在数据地图中展示CDH Spark SQL及CDH Spark节点数据加工过程的表血缘关系,请按照数据加工的模块,在的Spark参数处单独配置。
进入管理中心页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的,在下拉框中选择对应工作空间后单击进入管理中心。
-
在左侧导航栏单击集群管理,然后找到已创建的目标CDH集群。
-
单击编辑Spark参数。

-
根据具体数据加工模块添加Spark参数。
例如要在数据地图中展示CDH Spark SQL及CDH Spark节点在运维中心-周期实例模块中数据加工过程的表血缘关系,则需要在对应模块中,添加如下参数:
-
Spark属性名称:
spark.sql.queryExecutionListeners。 -
Spark属性值:
com.aliyun.dataworks.meta.lineage.LineageListener。
-
-
单击确认完成编辑。
Lindorm
仅实例模式支持血缘信息采集,连接串模式无法采集血缘信息。
如果需要在数据地图中展示Lindorm Spark及Lindorm Spark SQL节点数据加工过程的表血缘关系,请按照数据加工的模块,在的Spark参数处单独配置。
进入管理中心页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的,在下拉框中选择对应工作空间后单击进入管理中心。
-
在左侧导航栏单击计算资源,然后找到已创建的Lindorm计算资源。
-
单击编辑Spark参数。
-
根据具体数据加工模块添加Spark参数。
例如要在数据地图中展示Lindorm Spark及Lindorm Spark SQL节点在运维中心-周期实例模块中数据加工过程的表血缘关系,则需要在对应模块中,添加如下参数:
-
Spark属性名称:
spark.sql.queryExecutionListeners。 -
Spark属性值:
com.aliyun.dataworks.meta.lineage.LineageListener。
-
-
单击确认,完成Spark参数配置。
各数据源血缘展示情况说明
原E-MapReduce在数据地图中已按元数据来源拆分为EMR Hive、DLF和DLF-Legacy,下表按当前控制台中的数据源分类列出血缘支持情况。
|
数据源 |
数据集成 |
数据开发 |
||
|
表级血缘 |
字段级血缘 |
表级血缘 |
字段级血缘 |
|
|
AnalyticDB MySQL
|
|
|
|
|
|
AnalyticDB PostgreSQL
|
|
|
|
|
|
ClickHouse
|
|
|
|
|
|
CDH/CDP
|
|
|
Hive、Impala、Spark、Spark SQL
|
Hive、Impala、Spark、Spark SQL
|
|
EMR Hive
|
(OSS、Hive)
|
(OSS、Hive)
|
支持 E-MapReduce、Serverless Spark、Serverless StarRocks、Serverless Flink 引擎,以及 EMR Impala 引擎(仅 EMR DataLake 集群,当前为灰度开放阶段,使用前请联系阿里云技术支持开通)。
|
支持 E-MapReduce、Serverless Spark、Serverless StarRocks、Serverless Flink 引擎,以及 EMR Impala 引擎(仅 EMR DataLake 集群,当前为灰度开放阶段,使用前请联系阿里云技术支持开通)。
|
|
DLF-Legacy
|
(OSS、Hive)
|
(OSS、Hive)
|
支持 E-MapReduce、Serverless Spark、Serverless StarRocks、Serverless Flink 引擎,以及 EMR Impala 引擎(仅 EMR DataLake 集群,当前为灰度开放阶段,使用前请联系阿里云技术支持开通)。
|
支持 E-MapReduce、Serverless Spark、Serverless StarRocks、Serverless Flink 引擎,以及 EMR Impala 引擎(仅 EMR DataLake 集群,当前为灰度开放阶段,使用前请联系阿里云技术支持开通)。
|
|
DLF
|
(OSS、Hive)
|
(OSS、Hive)
|
支持 Serverless Spark、Serverless StarRocks、Serverless Flink 引擎,以及 EMR Impala 引擎(仅 EMR DataLake 集群,当前为灰度开放阶段,使用前请联系阿里云技术支持开通)。
|
支持 Serverless Spark、Serverless StarRocks、Serverless Flink 引擎,以及 EMR Impala 引擎(仅 EMR DataLake 集群,当前为灰度开放阶段,使用前请联系阿里云技术支持开通)。
|
|
Hologres
|
|
|
|
|
|
Kafka
|
(Kafka同步至MaxCompute/Hologres) |
|
|
|
|
Lindorm
|
|
|
|
|
|
MaxCompute
|
|
|
|
|
|
MySQL
|
(MySQL同步至MaxCompute/Hologres) |
|
|
|
|
Oracle
|
|
|
|
|
|
OceanBase
|
|
|
|
|
|
OSS
|
|
|
|
|
|
PolarDB MySQL
|
|
|
|
|
|
PolarDB PostgreSQL
|
|
|
|
|
|
PostgreSQL
|
|
|
|
|
|
StarRocks
|
|
|
|
|
|
SQL Server
|
|
|
|
|
|
Tablestore(OTS)
|
|
|
|
|
数据服务API血缘
查找某个数据服务API并进入API详情页面后,您可以单击血缘信息页签,查看API的血缘详情。

AI资产血缘
AI资产血缘服务允许企业追踪模型训练的输入数据集、输出结果集以及模型之间的血缘关系。

详情页
实时同步