元数据采集

更新时间:
复制为 MD 格式

DataWorks数据地图为您提供元数据采集功能,方便您将DataWorks不同数据源的元数据进行统一汇总管理,您可以在数据地图查看从各数据源汇集而来的元数据信息。本文为您介绍如何创建采集器,将各数据源的元数据信息汇集至DataWorks。

功能概述

元数据采集是构建企业级数据地图、实现数据资产统一管理的核心功能。它通过运行“采集器”(Crawler),自动地从分散在同一地域下不同工作空间的DataWorks数据源(如DLF、MySQL、CDH Hive等),抽取技术元数据(库、表、字段等)、数据血缘、分区信息等,汇集到DataWorks数据地图中,为您提供统一的数据视图。

通过元数据采集,您可以:

  • 构建统一数据视图:打破数据孤岛,将多源异构的元数据集中管理。

  • 支持数据发现与搜索:让数据消费者能快速、准确地找到所需数据。

  • 实现全链路血缘分析:清晰地追溯数据的来龙去脉,便于影响分析和问题排查。

  • 赋能数据治理:基于完整的元数据进行数据分类分级、权限管控、质量监控和生命周期管理。

计费说明

每次采集任务默认消耗0.25CU×任务运行时间,涉及资源组费用。每次成功采集将产生一个调度实例,涉及调度实例数费用

使用限制

  • 当您需要采集已开启白名单访问控制的数据源的元数据时,则需要提前配置好数据库的白名单权限。详情请参见元数据采集白名单

  • DataWorks目前不建议跨地域采集元数据,即DataWorks所在的地域需要与数据源所在的地域相同。如需跨地域采集元数据,请在新建数据源时使用公网地址。详情请参见数据源管理

  • 暂不支持使用MySQL元数据采集器来采集OceanBase数据源。

  • 暂不支持对开启SSLAnalyticDB for MySQL数据源进行元数据采集。

功能入口

  1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据治理 > 数据地图,在右侧页面中单击进入数据地图

  2. 在左侧导航栏中,单击image进入元数据采集页面。

系统内置采集器

系统内置采集器由DataWorks平台预置并自动执行采集(准实时),主要用于采集与DataWorks深度集成的核心元数据。您无需创建,仅需进行简单的范围管理。

重要

若在数据地图中,没有找到目标表,可进入我的数据 > 我的工具 > 刷新表元数据,手动同步相关表。

DLF 默认采集器

重要

若需支持 DLF 元数据的实时采集,需要在 DLF 控制台授予服务关联角色AliyunServiceRoleForDataworksOnEmrData Reader权限。

DLF Default Crawler采集器用于采集您账号下DLF(Data Lake Formation)中的元数据。

  1. 在元数据采集页面的系统内置区域,找到 DLF Default Crawler 卡片,单击详情查看基本信息。

  2. 切换到数据范围页签,查看当前已纳入采集范围的DLF Catalog列表及其包含的表数量。

    默认会采集所有可访问的Catalog(包含DLF以及DLF-Legacy版本)。

自定义采集器

自定义采集器旨在为您提供跨环境、多引擎的元数据统一纳管能力。

  • 针对常规数据源

    支持对 Hologres、StarRocks、MySQL、Oracle、CDH Hive 等传统结构化或半结构化数据源创建自定义采集器。通过配置采集任务,系统可深度解析源端的物理库表结构,实现对字段属性、索引及分区等元数据的自动化提取与同步

  • 对元数据类型数据源(Catalog)

    针对非 DLF 托管的,自主声明的原生湖格式元数据,如 Paimon Catalog元数据类型数据源,也可以通过创建采集器进行直接采集。

创建自定义采集器

  1. 在元数据采集页面的自定义采集器列表区域,单击新建元数据采集

  2. 选择采集类型:在类型选择页面,选择要采集的目标数据源类型,例如Hologres、StarRocks等。

  3. 配置基础与资源组

    • 基础配置

      • 选择工作空间:选择采集数据源所在的工作空间。

      • 选择数据源:从下拉列表中选择一个已创建好的目标数据源。选择后,系统会自动展示该数据源的详细信息。

      • 名称:为采集器命名,以便后续识别。默认和数据源同名。

    • 资源组配置

      • 资源组:选择一个用于执行采集任务的资源组。

      • 测试连通性:此步骤至关重要。单击测试连通性,确保资源组可以成功访问数据源。

        重要
        • 请确认数据源是否开启白名单限制,如果需要采集已开启白名单访问控制的元数据,请参考网络连通方案概述通用配置:添加白名单配置白名单权限。

        • 如果数据源未开启白名单限制,请参考资源组操作及网络连通文档进行数据源网络打通。

        • 如遇连通性测试报错:后端服务调用失败:test connectivity failed.not support data type,请联系技术支持对资源组进行升级。

  4. 配置元数据采集

    • 采集范围:定义需要采集的数据库(Database/Schema)。若数据源为数据库粒度,默认选中数据源对应的数据库,可支持选择数据源之外的更多数据库。

      重要
      • 同一个数据库仅支持配置在一个采集器中,若不可勾选数据库,则表示该数据库已被其他采集器采集。

      • 当缩小采集范围后,数据地图中将搜索不到采集范围外的元数据。

  5. 配置智能增强与采集计划

    • 智能增强配置 (Beta)

      • AI采集描述:开启后,系统将利用大模型能力,在采集元数据后,为您的表和字段自动生成业务描述,极大提升元数据可读性和易用性。可在采集完毕之后,进入数据地图表对象的详情页查看AI智能生成的信息(例如,表说明、字段描述)。

    • 采集计划

      • 触发方式:选择手动或周期。

        • 手动:采集器仅在您手动触发时运行,适用于一次性或按需采集的场景。

        • 周期:配置定时任务(如每月、每日、每周、每小时),系统将自动周期性地更新元数据。

          若需要配置分钟级定时任务,采集周期选择每小时,并勾选所有分钟粒度,可实现每5分钟的定时任务。
          重要

          仅生产环境数据源支持周期采集方式。

  6. 保存配置:单击保存保存并运行,完成采集器的创建。

管理自定义采集器

采集器创建后,会出现在自定义列表中,您可以进行如下管理操作:

  • 列表操作:在列表中,您可以直接对采集器进行运行停止删除等操作。通过顶部的筛选搜索功能,可以快速定位目标采集器。

    重要

    删除元数据采集器后,该采集器在数据地图中采集的元数据对象也将失效,用户将无法搜索、查看来自于该采集器的对象及详细信息。请谨慎操作!

  • 查看详情与日志:单击目标采集器名称,进入其详情页。

    • 基本信息:查看采集器的所有配置项。

    • 数据范围:查看或修改数据范围

      未采集时查看,表数量和最近更新时间将显示为空。
      以下数据源不支持修改范围:EMR Hive、CDH Hive、Lindorm、ElasticSearch、OTS、MongoDB以及 AnalyticDB MySQL中的AnalyticDB for Spark。
    • 运行日志:跟踪每一次采集任务的执行历史。您可以查看任务的开始时间、耗时、状态和采集的数据量。当任务失败时,单击查看日志是定位和解决问题的关键入口。

  • 手动执行采集:在详情页右上角,单击采集元数据按钮,可以立即触发一次采集任务。适用于在新表创建后希望立刻在数据地图中看到它的场景。

后续步骤

元数据采集成功后,您便可以充分利用数据地图的各项能力:

  • 在数据地图中搜索您采集的表,查看其详情、字段信息、分区和数据预览。详情请参见元数据详情

  • 分析表的上下游血缘关系,了解数据加工全链路。详情请参见数据血缘分析

  • 将资产加入数据专辑,从业务视角组织和管理您的数据。详情请参见数据专辑

常见问题

  • Q:MySQL等数据库类采集超时或失败?

    A:请检查是否将资源组的交换机网段添加至白名单