查看血缘信息-大数据开发治理平台 DataWorks(DataWorks)-阿里云帮助中心

使用DataWorks数据地图查看表或数据服务API时，可在对应的详情页面查看详细的血缘信息，这对于数据溯源及管理有很大帮助。当前控制台按EMR Hive、Data Lake Formation（DLF）与数据湖构建（DLF-Legacy）等类型纳管计算与元数据，本文与您在数据地图、数据开发中看到的分类保持一致，并说明各类型下的血缘查看方式。

表血缘

查看入口

在数据地图模块，查找某张表并进入表详情页面后，单击血缘信息页签查看表级和字段级的血缘详情。同时，您也可以进行影响分析，获取当前表的下游表列表，支持将下游表列表下载为本地文件或通过邮件进行变更通知。

说明

数据地图支持展示基于调度作业、数据流转信息解析得出的表和表、字段和字段之间的血缘关系；暂不包含临时查询等手动操作产生的血缘关系。离线数据T+1更新其血缘关系。

如需更大的视图区域查看复杂多级血缘，可在血缘图右上角工具栏单击新页面打开按钮（图标为全屏样式），在独立的血缘页面中浏览。该按钮在表、数据集、数据服务API、AI资产的血缘页签上均可使用。

说明

若您所在的工作空间或租户未开通数据血缘相关能力，进入血缘页签时会展示商业化引导页面，按页面提示购买或开通后即可使用。

各数据源使用限制

EMR Hive、DLF 与 DLF-Legacy

EMR Hive：EMR集群若要在DataWorks管理元数据， 需先在集群侧配置EMR-HOOK 。若未配置，则在DataWorks中无法展示血缘关系。配置EMR-HOOK，详情请参见配置Hive的EMR-HOOK。
DLF 与 DLF-Legacy：Data Lake Formation（DLF）及数据湖构建（DLF-Legacy）中的表，在通过元数据采集纳入数据地图后，当计算任务基于Serverless Spark、 Serverless StarRocks 或 Serverless Flink 引擎使用相应 DLF 元数据时，支持在数据地图中展示血缘；其他引擎或场景是否展示血缘，取决于对应元数据采集与解析能力。详情请参见元数据采集。
重要
Serverless Spark引擎、Serverless StarRocks引擎和Serverless Flink引擎需绑定到DataWorks工作空间，否则对应血缘会被认为与DataWorks无关而被忽略。
EMR Hive 计算集群相关：EMR on ACK类型的Spark集群不支持查看血缘，EMR Serverless Spark集群支持查看血缘。
EMR Hive 计算集群相关：EMR Presto节点的任务不支持查看血缘关系。
EMR Impala 引擎：EMR Impala 任务的血缘采集依赖 Impala 自身的血缘日志。需要在 EMR 集群的 集群服务 > Impala > 配置 中，将参数lineage_event_log_dir配置为/mnt/disk1/log/impala/lineage_log并重启 Impala 服务，DataWorks 数据地图即可展示 EMR Impala 任务的表级和字段级血缘。
说明
- 仅支持 EMR DataLake 集群的 Impala 任务。HMS（对应数据源类型 EMR Hive）和 DLF（对应数据源类型 DLF）两种元数据均支持。
- 对 EMR 集群版本和 Impala 版本无要求，集群中部署有 Impala 即可。
- 该能力当前处于灰度开放阶段，使用前请提交工单或联系阿里云技术支持开通。

StarRocks

StarRocks Serverless集群的元数据、血缘分析能力由集群的FE配置参数stmt_event_listeners控制，您可以修改此参数来控制是否启用元数据、血缘分析能力，添加或移除其他基于Statement Event分析的能力。

参数说明

FE配置参数名：stmt_event_listeners。

默认值：com.starrocks.qe.events.listener.LineageStmtEventListener，表示启用元数据、血缘分析能力。

如需关闭，请将stmt_event_listeners配置为,，表示接收逗号分隔的类名。

说明

如果将stmt_event_listeners配置为空（取值清空，不配置内容），则系统将使用默认值，启用元数据、血缘分析能力。
该参数随StarRocks Serverless集群的3.1.13版本、3.2.9版本及以后的版本开放，如果您的StarRocks Serverless集群FE配置参数中无stmt_event_listeners参数，则暂不支持开启元数据、血缘分析能力。如需启用，请查看当前集群版本，评估是否升级，具体操作，请参见版本升级。

AnalyticDB for MySQL

说明

在对应引擎执行SQLset adb_config RC_LINEAGE_INFO_LOG_ENABLE=true，开启AnalyticDB for MySQL实例的数据血缘功能。
当元数据来源为AnalyticDB for Spark类型时，支持自动采集。
当元数据来源为AnalyticDB for Spark类型时，配置spark参数spark.sql.queryExecutionListeners = com.aliyun.dataworks.meta.lineage.LineageListener后，可支持实时血缘。

对于AnalyticDB for MySQL类型的表，部分SQL处理命令不支持在数据地图中生成血缘关系信息，限制详情如下。

不支持展示血缘的SQL命令：

不支持的SQL

示例

不支持join、union，或使用了*等关键字。

例如，以下SQL中使用了*，数据地图无法展示血缘关系。

INSERT INTO test SELECT * FROM test1, test2 WHERE test1.id = test2.id

不支持子查询。

例如，以下SQL中包含子查询，数据地图无法展示血缘关系。

SELECT column1, column2 FROM table1 WHERE column3 IN (SELECT column4 FROM table2 WHERE column5 = 'value')

可正常展示血缘的SQL命令示例：
- 示例1：创建名为A的表（不包含具体列信息），同时从B表中选择某些具体列（不包含*）作为A表的内容。例如：
```
CREATE TABLE test AS SELECT id,name FROM test1;
```
- 示例2：将表A中满足条件column1= value1的某些具体列（不包含*）数据插入到表B（不包含具体列信息）中。例如：
```
INSERT INTO test SELECT id,name FROM test1 WHERE name='test';
```
- 示例3：将A表的某些列（不包含*）数据覆盖写入到某个数据库中的B表中。例如：
```
INSERT OVERWRITE INTO db_name.test SELECT id,name FROM test1;
```

CDH

如果需要在数据地图中展示CDH Spark SQL及CDH Spark节点数据加工过程的表血缘关系，请按照数据加工的模块，在管理中心 > 集群管理的Spark参数处单独配置。

进入管理中心页面。
登录DataWorks控制台，切换至目标地域后，单击左侧导航栏的更多 > 管理中心，在下拉框中选择对应工作空间后单击进入管理中心。
在左侧导航栏单击集群管理，然后找到已创建的目标CDH集群。
单击编辑Spark参数。
根据具体数据加工模块添加Spark参数。
例如要在数据地图中展示CDH Spark SQL及CDH Spark节点在运维中心-周期实例模块中数据加工过程的表血缘关系，则需要在对应模块中，添加如下参数：
- Spark属性名称：spark.sql.queryExecutionListeners。
- Spark属性值：com.aliyun.dataworks.meta.lineage.LineageListener。
单击确认完成编辑。

Lindorm

说明

仅实例模式支持血缘信息采集，连接串模式无法采集血缘信息。

如果需要在数据地图中展示Lindorm Spark及Lindorm Spark SQL节点数据加工过程的表血缘关系，请按照数据加工的模块，在管理中心 > 计算资源的Spark参数处单独配置。

进入管理中心页面。
登录DataWorks控制台，切换至目标地域后，单击左侧导航栏的更多 > 管理中心，在下拉框中选择对应工作空间后单击进入管理中心。
在左侧导航栏单击计算资源，然后找到已创建的Lindorm计算资源。
单击编辑Spark参数。
根据具体数据加工模块添加Spark参数。
例如要在数据地图中展示Lindorm Spark及Lindorm Spark SQL节点在运维中心-周期实例模块中数据加工过程的表血缘关系，则需要在对应模块中，添加如下参数：
- Spark属性名称：spark.sql.queryExecutionListeners。
- Spark属性值：com.aliyun.dataworks.meta.lineage.LineageListener。
单击确认，完成Spark参数配置。

SelectDB

DataWorks 支持对数据源 SelectDB 进行数据血缘分析。如需启用该能力，请确保 SelectDB 满足以下版本要求：

SelectDB 内核版本 4.1.7 及以上默认开启血缘分析能力（无需手动配置）。

各数据源血缘展示情况说明

说明

原E-MapReduce在数据地图中已按元数据来源拆分为EMR Hive、DLF和DLF-Legacy，下表按当前控制台中的数据源分类列出血缘支持情况。

数据源

数据集成

数据开发

表级血缘

字段级血缘

表级血缘

字段级血缘

AnalyticDB MySQL

详情页

详情页-血缘信息

离线同步

实时同步

离线同步

实时同步

insert into /insert overwrite table

create as select from table

create external table

insert into /insert overwrite table

create as select from table

create external table

AnalyticDB PostgreSQL

详情页

详情页-血缘信息

离线同步

实时同步

离线同步

实时同步

insert into /insert overwrite table

create as select from table

create external table

insert into /insert overwrite table

create as select from table

create external table

ClickHouse

详情页

详情页-血缘信息

离线同步

实时同步

离线同步

实时同步

insert into /insert overwrite table

create as select from table

create external table

insert into /insert overwrite table

create as select from table

create external table

CDH/CDP

详情页

详情页-血缘信息

离线同步

实时同步

离线同步

实时同步

Hive、Impala、Spark、Spark SQL

insert into /insert overwrite table

create as select from table

create external table

Hive、Impala、Spark、Spark SQL

insert into /insert overwrite table

create as select from table

create external table

EMR Hive

详情页

详情页-血缘信息

离线同步

（OSS、Hive）

实时同步

离线同步

（OSS、Hive）

实时同步

支持 E-MapReduce、Serverless Spark、Serverless StarRocks、Serverless Flink 引擎，以及 EMR Impala 引擎（仅 EMR DataLake 集群，当前为灰度开放阶段，使用前请联系阿里云技术支持开通）。

insert into /insert overwrite table

create as select from table

create external table

支持 E-MapReduce、Serverless Spark、Serverless StarRocks、Serverless Flink 引擎，以及 EMR Impala 引擎（仅 EMR DataLake 集群，当前为灰度开放阶段，使用前请联系阿里云技术支持开通）。

insert into /insert overwrite table

create as select from table

create external table

DLF-Legacy

详情页

详情页-血缘信息

离线同步

（OSS、Hive）

实时同步

离线同步

（OSS、Hive）

实时同步

支持 E-MapReduce、Serverless Spark、Serverless StarRocks、Serverless Flink 引擎，以及 EMR Impala 引擎（仅 EMR DataLake 集群，当前为灰度开放阶段，使用前请联系阿里云技术支持开通）。

insert into /insert overwrite table

create as select from table

create external table

支持 E-MapReduce、Serverless Spark、Serverless StarRocks、Serverless Flink 引擎，以及 EMR Impala 引擎（仅 EMR DataLake 集群，当前为灰度开放阶段，使用前请联系阿里云技术支持开通）。

insert into /insert overwrite table

create as select from table

create external table

DLF

详情页

详情页-血缘信息

离线同步

（OSS、Hive）

实时同步

离线同步

（OSS、Hive）

实时同步

支持 Serverless Spark、Serverless StarRocks、Serverless Flink 引擎，以及 EMR Impala 引擎（仅 EMR DataLake 集群，当前为灰度开放阶段，使用前请联系阿里云技术支持开通）。

insert into /insert overwrite table

create as select from table

create external table

支持 Serverless Spark、Serverless StarRocks、Serverless Flink 引擎，以及 EMR Impala 引擎（仅 EMR DataLake 集群，当前为灰度开放阶段，使用前请联系阿里云技术支持开通）。

insert into /insert overwrite table

create as select from table

create external table

Hologres

详情页

详情页-血缘信息

离线同步

实时同步（MySQL/Kafka/LogHub同步至Hologres）

离线同步

实时同步

insert into /insert overwrite table

create as select from table

create external table

insert into /insert overwrite table

create as select from table

create external table

Kafka

详情页

详情页-血缘信息

离线同步

实时同步

（Kafka同步至MaxCompute/Hologres）

离线同步

实时同步

insert into /insert overwrite table

create as select from table

create external table

insert into /insert overwrite table

create as select from table

create external table

Lindorm

详情页

详情页-血缘信息

离线同步

实时同步

离线同步

实时同步

insert into /insert overwrite table

create as select from table

create table

create table like

insert into /insert overwrite table

create as select from table

create table

create table like

MaxCompute

详情页

详情页-血缘信息

离线同步

实时同步（MySQL/Kafka/PolarDB MySQL/LogHub同步至MaxCompute）

离线同步

实时同步

insert into /insert overwrite table

create as select from table

create external table

insert into /insert overwrite table

create as select from table

create external table

MySQL

详情页

详情页-血缘信息

离线同步

实时同步

（MySQL同步至MaxCompute/Hologres）

离线同步

实时同步

insert into /insert overwrite table

create as select from table

create external table

insert into /insert overwrite table

create as select from table

create external table

Oracle

详情页

详情页-血缘信息

离线同步

实时同步

离线同步

实时同步

insert into /insert overwrite table

create as select from table

create external table

insert into /insert overwrite table

create as select from table

create external table

OceanBase

详情页

详情页-血缘信息

离线同步

实时同步

离线同步

实时同步

insert into /insert overwrite table

create as select from table

create external table

insert into /insert overwrite table

create as select from table

create external table

OSS

详情页

详情页-血缘信息

离线同步

实时同步

离线同步

实时同步

insert into /insert overwrite table

create as select from table

create external table

insert into /insert overwrite table

create as select from table

create external table

PolarDB MySQL

详情页

详情页-血缘信息

离线同步

实时同步（PolarDB MySQL同步至MaxCompute）

离线同步

实时同步

insert into /insert overwrite table

create as select from table

create external table

insert into /insert overwrite table

create as select from table

create external table

PolarDB PostgreSQL

详情页

详情页-血缘信息

离线同步

实时同步

离线同步

实时同步

insert into /insert overwrite table

create as select from table

create external table

insert into /insert overwrite table

create as select from table

create external table

PostgreSQL

详情页

详情页-血缘信息

离线同步

实时同步

离线同步

实时同步

insert into /insert overwrite table

create as select from table

create external table

insert into /insert overwrite table

create as select from table

create external table

StarRocks

详情页

详情页-血缘信息

离线同步

实时同步

离线同步

实时同步

insert into /insert overwrite table

create as select from table

create external table

insert into /insert overwrite table

create as select from table

create external table

SQL Server

详情页

详情页-血缘信息

离线同步

实时同步

离线同步

实时同步

insert into /insert overwrite table

create as select from table

create external table

insert into /insert overwrite table

create as select from table

create external table

SelectDB

详情页

详情页-血缘信息

离线同步

实时同步

离线同步

实时同步

insert into /insert overwrite table

create as select from table

create external table

insert into /insert overwrite table

create as select from table

create external table

Tablestore（OTS）

详情页

详情页-血缘信息

离线同步

实时同步

离线同步

实时同步

insert into /insert overwrite table

create as select from table

create external table

insert into /insert overwrite table

create as select from table

create external table

数据服务API血缘

查找某个数据服务API并进入API详情页面后，您可以单击血缘信息页签，查看API的血缘详情。

AI资产血缘

AI资产血缘服务允许企业追踪模型训练的输入数据集、输出结果集以及模型之间的血缘关系。详细的AI资产血缘说明，请参见查看AI资产。