DataWorks数据地图为您提供元数据采集功能,方便您将不同系统中的元数据进行统一汇总管理,您可以在数据地图查看从各数据源汇集而来的元数据信息。本文为您介绍如何创建采集器,将各数据源的元数据信息汇集至DataWorks。
前提条件
您需要先在工作空间新建数据源后,才可以进行元数据采集。新建数据源配置详情请参见:数据源管理。
元数据采集概述
在工作空间中新建数据源后,DataWorks可以面向数据源提供元数据采集能力。在数据地图中开启元数据采集后,系统将一次性全量采集存量的元数据,同时每天采集增量的元数据,并汇集至数据地图,方便您进行数据总览、分类分组管理数据表、查看数据血缘关系等操作。
如果系统默认配置的采集计划不适用,支持您修改采集器执行计划,详情请参见管理元数据采集器。
MaxCompute和E-MapReduce(DLF)数据源绑定至数据开发后,由系统自动运维元数据采集器,您无需额外管理元数据采集器。
支持的数据源及元数据采集方式
数据源类型 | 元数据采集方式 | 是否能在数据地图中看到采集器 | 元数据更新时效性 | ||
数据表/字段 | 分区 | 数据血缘 | |||
MaxCompute |
| 否 | 普通项目:实时 外部项目:T+1 | 国内地域:实时 海外地域:T+1 | T+1 |
E-MapReduce(DLF) 说明 需要为集群开启EMR_HOOK。 |
| 否 | 实时 | 实时 | 实时 |
E-MapReduce(HMS / RDS) 说明 需要为集群开启EMR_HOOK。 |
| 是 | 实时 | 实时 | 实时 |
Hologres |
| 是 | 取决于自定义采集计划 | 不支持 | 实时 |
AnalyticDB for PostgreSQL |
| 是 | 取决于自定义采集计划 | 不支持 | 实时 |
AnalyticDB for MySQL |
| 是 | 取决于自定义采集计划 | 不支持 | 实时 说明 需要提交工单为AnalyticDB for MySQL实例开启数据血缘功能。 |
AnalyticDB for Spark |
| 是 | 实时 | 不支持 | 实时 |
CDH Hive |
| 是 | 取决于自定义采集计划 | 实时 | 实时 |
Data Lake Formation(DLF) | 自动启动采集 | 否 | 实时 | 实时 | 不适用 |
其他数据源类型(MySQL、PostgreSQL、SQL Server、Oracle、Table Store(OTS)、StarRocks、Clickhouse等) |
| 是 | 取决于自定义采集计划 | 不支持 | 不支持 |
使用限制
仅支持对当前登录账号所属的工作空间中已配置的数据源,进行元数据采集操作。如果您需要采集其他工作空间中数据源的元数据信息,您可以联系空间管理员添加空间成员,详情请参见为工作空间添加空间成员。
当您需要采集已开启白名单访问控制的数据源的元数据时,则需要提前配置好数据库的白名单权限。详情请参见元数据采集的数据源有白名单访问控制时需要配置的白名单。
DataWorks目前不建议跨地域采集元数据,即DataWorks所在的地域需要与数据源所在的地域相同。如需跨地域采集元数据,请在新建数据源时使用公网地址。详情请参见创建并管理数据源。
暂不支持使用MySQL元数据采集器来采集OceanBase数据源。
功能入口
在左侧菜单栏,单击元数据采集。
您可以在数据发现页面的数据源视角对已配置的各数据源的元数据采集器进行管理。对于无数据源的情况,支持您单击新建数据源,进入数据源配置页面,创建数据源。
查看元数据采集器
整体统计
在元数据采集页面,您可以在数据源视角查看元数据采集总览,主要为您展示已创建采集器的数据源数量。
明细列表
您还可以单击目标数据源类型右上角的管理按钮,进入采集明细页面,查看指定工作空间下相应采集器的运行状态、执行计划、上次运行时间、上次消耗时间、平均运行耗时及上次运行时更新及添加的表数量。
管理元数据采集器
单击目标数据源右上角的管理按钮,默认进入已采集列表,您可以对已有采集器进行如下操作。
运行元数据采集器
支持您手动运行元数据采集器,您可以根据业务需要在已采集列表页面找到目标数据源单击操作列的运行,即可执行一次元数据采集。
修改元数据采集器的执行计划
进入已采集列表,单击目标数据源采集器操作列的编辑,即可修改采集器的执行计划,支持的执行计划包括手动采集或周期采集。
手动采集:在配置目标数据源的元数据采集器后,需要按需手动触发元数据的采集和更新。
周期采集:在配置目标数据源的元数据采集器后,您无需手动触发,系统会按照配置的采集计划周期性进行元数据的采集和更新。
移除元数据采集器
支持您在已采集列表页面找到目标数据源单击操作列的移除,移除当前数据源的元数据采集器。移除后该数据源将会进入未采集列表,不再进行元数据采集。
创建元数据采集器
新建数据源或注册集群后,您可以进入数据地图中开启元数据采集,在已采集列表中查看目标数据源的元数据采集情况。
移除元数据采集器后,如果后续您需要重新启动采集,支持您在未采集列表中重新创建元数据采集器,以下是详细的操作步骤。
单击列表顶部的未采集列表。
找到目标数据源,单击操作列的元数据采集,在弹出来的配置采集计划框中配置各项参数。
说明不同数据源配置采集计划界面可能存在差异,请以产品界面为准。
参数
描述
资源组名称
选择已与数据源网络连通的资源组。数据地图支持您选择如下3种资源组,您可根据需求选取:
默认资源组
default
。您自己的独享调度资源组。
您自己的独享数据集成资源组。
您自己的Serverless资源组(通用型资源组)。
连通性测试
选择完资源组名称后,如果您想再次测试资源组与数据源的连通性,您可以单击测试连通性进行验证。如果显示测试连通性未通过:
请确认数据源是否开启了白名单限制,如果需要采集已开启白名单访问控制的元数据,请参考元数据采集的数据源有白名单访问控制时需要配置的白名单配置白名单权限。
如果数据源未开启白名单限制,请参考资源组操作及网络连通文档进行数据源网络打通。
采集计划
包括手动采集、每月、每周、每天及每小时。根据不同的执行周期,生成不同的执行计划,在相应执行计划的时间内,对目标数据源进行元数据采集。
手动采集:根据实际业务需求,在业务需要时手动触发元数据的采集和更新。
月采集:即在每月所指定日期的指定时间点自动采集一次元数据。
重要部分月份不包含29、30、31日,请您谨慎选择月末日期。
周采集:即在每周所指定日期的指定时间点自动采集一次元数据。
不输入时间时,则默认在每周指定几天的00:00:00采集。
天采集:即在每天特定的时间点自动采集一次元数据。
小时采集:即在每小时的第
N分钟
自动采集一次元数据。
确认配置信息无误后,单击确认。
系统会根据配置的采集计划,进行元数据采集,如果是手动采集,您可以根据实际业务需求,在业务需要时进入已采集列表,找到目标数据源,单击操作列的运行,即可手动执行采集任务。
后续步骤
采集元数据成功后,您可以在数据地图中进行数据总览、分类分组管理数据表、查看数据血缘关系等操作。详情请参见数据总览、查找表、业务视角管理:数据专辑。