元数据采集
DataWorks数据地图为您提供元数据采集功能,方便您将DataWorks不同数据源的元数据进行统一汇总管理,您可以在数据地图查看从各数据源汇集而来的元数据信息。本文为您介绍如何创建采集器,将各数据源的元数据信息汇集至DataWorks。
功能概述
元数据采集是构建企业级数据地图、实现数据资产统一管理的核心功能。它通过运行“采集器”(Crawler),自动地从分散在同一地域下不同工作空间的DataWorks数据源(如DLF、MySQL、CDH Hive等),抽取技术元数据(库、表、字段等)、数据血缘、分区信息等,汇集到DataWorks数据地图中,为您提供统一的数据视图。
通过元数据采集,您可以:
构建统一数据视图:打破数据孤岛,将多源异构的元数据集中管理。
支持数据发现与搜索:让数据消费者能快速、准确地找到所需数据。
实现全链路血缘分析:清晰地追溯数据的来龙去脉,便于影响分析和问题排查。
赋能数据治理:基于完整的元数据进行数据分类分级、权限管控、质量监控和生命周期管理。
计费说明
使用限制
功能入口
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的,在右侧页面中单击进入数据地图。
在左侧导航栏中,单击
进入元数据采集页面。
系统内置采集器
系统内置采集器由DataWorks平台预置并自动执行采集(准实时),主要用于采集与DataWorks深度集成的核心元数据。您无需创建,仅需进行简单的范围管理。
若在数据地图中,没有找到目标表,可进入,手动同步相关表。
DLF 默认采集器
若需支持 DLF 元数据的实时采集,需要在 DLF 控制台授予服务关联角色AliyunServiceRoleForDataworksOnEmr的Data Reader权限。
DLF Default Crawler采集器用于采集您账号下DLF(Data Lake Formation)中的元数据。
在元数据采集页面的系统内置区域,找到 DLF Default Crawler 卡片,单击详情查看基本信息。
切换到数据范围页签,查看当前已纳入采集范围的DLF Catalog列表及其包含的表数量。
默认会采集所有可访问的Catalog(包含DLF以及DLF-Legacy版本)。
自定义采集器
自定义采集器旨在为您提供跨环境、多引擎的元数据统一纳管能力。
针对常规数据源
支持对 Hologres、StarRocks、MySQL、Oracle、CDH Hive 等传统结构化或半结构化数据源创建自定义采集器。通过配置采集任务,系统可深度解析源端的物理库表结构,实现对字段属性、索引及分区等元数据的自动化提取与同步。
对元数据类型数据源(Catalog)
针对非 DLF 托管的,自主声明的原生湖格式元数据,如 Paimon Catalog等元数据类型数据源,也可以通过创建采集器进行直接采集。
创建自定义采集器
在元数据采集页面的自定义采集器列表区域,单击新建元数据采集。
选择采集类型:在类型选择页面,选择要采集的目标数据源类型,例如Hologres、StarRocks等。
配置基础与资源组:
基础配置:
选择工作空间:选择采集数据源所在的工作空间。
选择数据源:从下拉列表中选择一个已创建好的目标数据源。选择后,系统会自动展示该数据源的详细信息。
名称:为采集器命名,以便后续识别。默认和数据源同名。
资源组配置:
资源组:选择一个用于执行采集任务的资源组。
测试连通性:此步骤至关重要。单击测试连通性,确保资源组可以成功访问数据源。
重要请确认数据源是否开启白名单限制,如果需要采集已开启白名单访问控制的元数据,请参考网络连通方案概述和通用配置:添加白名单配置白名单权限。
如果数据源未开启白名单限制,请参考资源组操作及网络连通文档进行数据源网络打通。
如遇连通性测试报错:
后端服务调用失败:test connectivity failed.not support data type,请联系技术支持对资源组进行升级。
配置元数据采集:
采集范围:定义需要采集的数据库(Database/Schema)。若数据源为数据库粒度,默认选中数据源对应的数据库,可支持选择数据源之外的更多数据库。
重要同一个数据库仅支持配置在一个采集器中,若不可勾选数据库,则表示该数据库已被其他采集器采集。
当缩小采集范围后,数据地图中将搜索不到采集范围外的元数据。
配置智能增强与采集计划:
智能增强配置 (Beta):
AI采集描述:开启后,系统将利用大模型能力,在采集元数据后,为您的表和字段自动生成业务描述,极大提升元数据可读性和易用性。可在采集完毕之后,进入数据地图表对象的详情页查看AI智能生成的信息(例如,表说明、字段描述)。
采集计划:
触发方式:选择手动或周期。
手动:采集器仅在您手动触发时运行,适用于一次性或按需采集的场景。
周期:配置定时任务(如每月、每日、每周、每小时),系统将自动周期性地更新元数据。
若需要配置分钟级定时任务,采集周期选择每小时,并勾选所有分钟粒度,可实现每5分钟的定时任务。
重要仅生产环境数据源支持周期采集方式。
保存配置:单击保存或保存并运行,完成采集器的创建。
管理自定义采集器
采集器创建后,会出现在自定义列表中,您可以进行如下管理操作:
列表操作:在列表中,您可以直接对采集器进行运行、停止、删除等操作。通过顶部的筛选和搜索功能,可以快速定位目标采集器。
重要删除元数据采集器后,该采集器在数据地图中采集的元数据对象也将失效,用户将无法搜索、查看来自于该采集器的对象及详细信息。请谨慎操作!
查看详情与日志:单击目标采集器名称,进入其详情页。
基本信息:查看采集器的所有配置项。
数据范围:查看或修改数据范围。
未采集时查看,表数量和最近更新时间将显示为空。
以下数据源不支持修改范围:EMR Hive、CDH Hive、Lindorm、ElasticSearch、OTS、MongoDB以及 AnalyticDB MySQL中的AnalyticDB for Spark。
运行日志:跟踪每一次采集任务的执行历史。您可以查看任务的开始时间、耗时、状态和采集的数据量。当任务失败时,单击查看日志是定位和解决问题的关键入口。
手动执行采集:在详情页右上角,单击采集元数据按钮,可以立即触发一次采集任务。适用于在新表创建后希望立刻在数据地图中看到它的场景。
后续步骤
元数据采集成功后,您便可以充分利用数据地图的各项能力:
常见问题
Q:MySQL等数据库类采集超时或失败?
A:请检查是否将资源组的交换机网段添加至白名单。