元数据采集

DataWorks数据地图为您提供元数据采集功能,方便您将DataWorks不同数据源的元数据进行统一汇总管理,您可以在数据地图查看从各数据源汇集而来的元数据信息。本文为您介绍如何创建采集器,将各数据源的元数据信息汇集至DataWorks。

功能概述

元数据采集是构建企业级数据地图、实现数据资产统一管理的核心功能。它通过运行“采集器”(Crawler),自动地从分散在同一地域下不同工作空间的DataWorks数据源(如MaxCompute、Hologres、MySQL、CDH Hive等),抽取技术元数据(库、表、字段等)、数据血缘、分区信息等,汇集到DataWorks数据地图中,为您提供统一的数据视图。

通过元数据采集,您可以:

  • 构建统一数据视图:打破数据孤岛,将多源异构的元数据集中管理。

  • 支持数据发现与搜索:让数据消费者能快速、准确地找到所需数据。

  • 实现全链路血缘分析:清晰地追溯数据的来龙去脉,便于影响分析和问题排查。

  • 赋能数据治理:基于完整的元数据进行数据分类分级、权限管控、质量监控和生命周期管理。

计费说明

每次采集任务默认消耗0.25CU*任务运行时间,涉及资源组费用。每次成功采集将产生一个调度实例,涉及任务调度计费

使用限制

  • 当您需要采集已开启白名单访问控制的数据源的元数据时,则需要提前配置好数据库的白名单权限。详情请参见元数据采集白名单

  • DataWorks目前不建议跨地域采集元数据,即DataWorks所在的地域需要与数据源所在的地域相同。如需跨地域采集元数据,请在新建数据源时使用公网地址。详情请参见数据源管理

  • 暂不支持使用MySQL元数据采集器来采集OceanBase数据源。

功能入口

  1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据治理 > 数据地图,在右侧页面中单击进入数据地图

  2. 在左侧导航栏中,单击image进入元数据采集页面。

系统内置采集器

系统内置采集器由DataWorks平台预置并自动执行采集(准实时),主要用于采集与DataWorks深度集成的核心元数据。您无需创建,仅需进行简单的范围管理。

重要

若在数据地图中,没有找到目标表,可进入我的数据 > 我的工具 > 刷新表元数据,手动同步相关表。

MaxCompute 默认采集器

用于采集您账号下MaxCompute项目的元数据。您可以进入详情页,通过修改数据范围来选择需要采集的项目,并通过权限配置来设置元数据在租户内的可见性。

  1. 在元数据采集页面的系统内置区域,找到 MaxCompute Default Crawler 卡片,单击详情

  2. MaxCompute Default Crawler详情页包含基本信息数据范围两个标签页。

    • 基本信息:展示采集器的基础属性,如采集类型、方式等,此处信息为只读。

    • 数据范围:管理此采集器要采集哪些MaxCompute项目。

  3. 修改采集范围

    1. 切换到数据范围页签,单击修改数据范围按钮。

    2. 在弹出的对话框中,勾选或取消勾选您希望采集的MaxCompute项目。

      重要

      默认范围为本租户下当前地域下绑定到工作空间的所有MaxCompute项目。修改数据范围后,在数据地图中采集的元数据对象和当前数据范围保持一致,即未勾选的元数据将不可见。

    3. 单击确定保存更改。

  4. 配置元数据可见性

    • 数据范围列表中,找到目标项目,单击其操作列下的权限配置

    • 根据您的数据治理要求,选择可见性策略:

      • 租户内公开:租户内所有成员都可以搜索和查看该项目的元数据。

      • 仅关联的工作空间下的成员可搜索和查看:只有特定工作空间的成员才能访问该项目的元数据,保障数据的隔离性。

DLF 默认采集器

重要

若需支持 DLF 元数据的实时采集,需要在 DLF 控制台授予服务关联角色AliyunServiceRoleForDataworksOnEmrData Reader权限。

DLF Default Crawler采集器用于采集您账号下DLF(Data Lake Formation)中的元数据。

  1. 在元数据采集页面的系统内置区域,找到 DLF Default Crawler 卡片,单击详情查看基本信息。

  2. 切换到数据范围页签,查看当前已纳入采集范围的DLF Catalog列表及其包含的表数量。

    默认会采集所有可访问的Catalog(包含DLF以及DLF-Legacy版本)。

自定义采集器

当您需要采集HologresStarRocksMySQLOracleCDH Hive等多种数据源的元数据时,需要创建自定义采集器。

创建自定义采集器

  1. 在元数据采集页面的自定义采集器列表区域,单击新建元数据采集

  2. 选择采集类型:在类型选择页面,选择要采集的目标数据源类型,例如Hologres、StarRocks等。

  3. 配置基础与资源组

    • 基础配置

      • 选择工作空间:选择采集数据源所在的工作空间。

      • 选择数据源:从下拉列表中选择一个已创建好的目标数据源。选择后,系统会自动展示该数据源的详细信息。

      • 名称:为采集器命名,以便后续识别。默认和数据源同名。

    • 资源组配置

      • 资源组:选择一个用于执行采集任务的资源组。

      • 测试连通性:此步骤至关重要。单击测试连通性,确保资源组可以成功访问数据源。

        重要
  4. 配置元数据采集

    • 采集范围:定义需要采集的数据库(Database/Schema)。若数据源为数据库粒度,默认选中数据源对应的数据库,可支持选择数据源之外的更多数据库。

      重要
      • 同一个数据库仅支持配置在一个采集器中,若不可勾选数据库,则表示该数据库已被其他采集器采集。

      • 当缩小采集范围后,数据地图中将搜索不到采集范围外的元数据。

  5. 配置智能增强与采集计划

    • 智能增强配置 (Beta)

      • AI采集描述:开启后,系统将利用大模型能力,在采集元数据后,为您的表和字段自动生成业务描述,极大提升元数据可读性和易用性。可在采集完毕之后,进入数据地图表对象的详情页查看AI智能生成的信息(例如,表说明、字段描述)。

    • 采集计划

      • 触发方式:选择手动或周期。

        • 手动:采集器仅在您手动触发时运行,适用于一次性或按需采集的场景。

        • 周期:配置定时任务(如每月、每日、每周、每小时),系统将自动周期性地更新元数据。

          若需要配置分钟级定时任务,采集周期选择每小时,并勾选所有分钟粒度,可实现每5分钟的定时任务。
          重要

          仅生产环境数据源支持周期采集方式。

  6. 保存配置:单击保存保存并运行,完成采集器的创建。

管理自定义采集器

采集器创建后,会出现在自定义列表中,您可以进行如下管理操作:

  • 列表操作:在列表中,您可以直接对采集器进行运行停止删除等操作。通过顶部的筛选搜索功能,可以快速定位目标采集器。

    重要

    删除元数据采集器后,该采集器在数据地图中采集的元数据对象也将失效,用户将无法搜索、查看来自于该采集器的对象及详细信息。请谨慎操作!

  • 查看详情与日志:单击目标采集器名称,进入其详情页。

    • 基本信息:查看采集器的所有配置项。

    • 数据范围:查看或修改数据范围

      未采集时查看,表数量和最近更新时间将显示为空。
      以下数据源不支持修改范围:EMR Hive、CDH Hive、Lindorm、ElasticSearch、OTS以及 AnalyticDB MySQL中的AnalyticDB for Spark。
    • 运行日志:跟踪每一次采集任务的执行历史。您可以查看任务的开始时间、耗时、状态和采集的数据量。当任务失败时,单击查看日志是定位和解决问题的关键入口。

  • 手动执行采集:在详情页右上角,单击采集元数据按钮,可以立即触发一次采集任务。适用于在新表创建后希望立刻在数据地图中看到它的场景。

后续步骤

元数据采集成功后,您便可以充分利用数据地图的各项能力:

  • 在数据地图中搜索您采集的表,查看其详情、字段信息、分区和数据预览。详情请参见元数据详情

  • 分析表的上下游血缘关系,了解数据加工全链路。详情请参见血缘查看

  • 将资产加入数据专辑,从业务视角组织和管理您的数据。详情请参见数据专辑

常见问题

  • Q:MySQL等数据库类采集超时或失败?

    A:请检查是否将资源组的交换机网段添加至白名单

附录:采集范围和实效

数据表

数据源类型

采集方式

采集粒度

元数据更新时效性

表/字段

分区

血缘

MaxCompute

系统默认自动采集

实例

普通项目:实时

外部项目:T+1

中国内地地域:实时

海外地域:T+1

实时

Data Lake Formation(DLF)

实例

实时

实时

Serverless Spark、Serverless StarRocks、Serverless Flink引擎的DLF 元数据,支持展示血缘;其他不支持。

重要

若为EMR集群,需开启EMR_HOOK

Hologres

手动创建采集器

取决于采集周期

不支持

实时

EMR Hive

实例

取决于采集周期

取决于采集周期

实时

重要

需要为集群开启EMR_HOOK

CDH Hive

实例

取决于采集周期

实时

实时

StarRocks

  • 实例模式:实时。

  • 连接串模式:取决于采集周期。

不支持

实时

重要

实例模式支持血缘信息采集,连接串模式无法采集血缘信息。

AnalyticDB for MySQL

取决于采集周期

不支持

实时

说明

需要提交工单AnalyticDB for MySQL实例开启数据血缘功能。

AnalyticDB for Spark

实例

实时

不支持

实时

AnalyticDB for PostgreSQL

取决于采集周期

不支持

实时

Lindorm

实例

取决于采集周期

不支持

实时

OTS

实例

取决于采集周期

不支持

不支持

其他数据源类型(MySQL、PostgreSQL、SQL Server、Oracle、ClickHouse等)

取决于采集周期

不支持

不支持

说明

AnalyticDB for SparkAnalyticDB for MySQL使用同一个元数据采集入口。

任务代码

数据地图支持任务代码搜索与快速定位,以下为支持搜索的代码范围说明。

代码来源

采集口径

触发采集方式

数据开发

数据开发 - 创建节点并编辑代码

自动采集

数据开发(旧版)

数据开发(旧版) - 创建节点并编辑代码

数据分析

数据分析 - 新建SQL查询并编辑代码

数据服务

数据服务 - 新建API数据推送服务

API资产

数据地图支持查看数据服务API的元数据,具体如下:

API类型

采集口径

触发采集方式

生成API(向导模式)

数据服务 - 通过向导模式创建API

自动采集

生成API(脚本模式)

数据服务 - 通过脚本模式创建API

注册API

数据服务 - 注册API

服务编排

数据服务 - 新建服务编排

AI资产

数据地图支持查看与管理AI资产,并提供AI资产血缘功能用于追踪数据和模型的来源、使用及演变过程,以下为各AI资产的支持情况。

资产类型

采集口径

触发采集方式

数据集

  • PAI - 创建数据集/注册数据集

  • DataWorks-创建数据集

自动采集

AI模型

PAI - 模型训练任务/注册模型/部署模型服务

算法任务

PAI - 训练任务/工作流任务/分布式训练任务

模型服务

PAI - 部署模型服务(EAS部署)

工作空间

数据地图支持查看工作空间元数据,具体如下:

项目

采集方式

触发采集方式

工作空间

DataWorks - 创建工作空间

自动采集