元数据采集-大数据开发治理平台 DataWorks-阿里云

DataWorks数据地图为您提供元数据采集功能，方便您将DataWorks不同数据源的元数据进行统一汇总管理，您可以在数据地图查看从各数据源汇集而来的元数据信息。本文为您介绍如何创建采集器，将各数据源的元数据信息汇集至DataWorks。

功能概述

元数据采集是构建企业级数据地图、实现数据资产统一管理的核心功能。它通过运行“采集器”（Crawler），自动地从分散在同一地域下不同工作空间的DataWorks数据源（如MaxCompute、Hologres、MySQL、CDH Hive等），抽取技术元数据（库、表、字段等）、数据血缘、分区信息等，汇集到DataWorks数据地图中，为您提供统一的数据视图。

通过元数据采集，您可以：

构建统一数据视图：打破数据孤岛，将多源异构的元数据集中管理。
支持数据发现与搜索：让数据消费者能快速、准确地找到所需数据。
实现全链路血缘分析：清晰地追溯数据的来龙去脉，便于影响分析和问题排查。
赋能数据治理：基于完整的元数据进行数据分类分级、权限管控、质量监控和生命周期管理。

计费说明

每次采集任务默认消耗0.25CU*任务运行时间，涉及资源组费用。每次成功采集将产生一个调度实例，涉及任务调度计费。

使用限制

当您需要采集已开启白名单访问控制的数据源的元数据时，则需要提前配置好数据库的白名单权限。详情请参见元数据采集白名单。
DataWorks目前不建议跨地域采集元数据，即DataWorks所在的地域需要与数据源所在的地域相同。如需跨地域采集元数据，请在新建数据源时使用公网地址。详情请参见数据源管理。
暂不支持使用MySQL元数据采集器来采集OceanBase数据源。

功能入口

登录DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据治理 > 数据地图，在右侧页面中单击进入数据地图。
在左侧导航栏中，单击进入元数据采集页面。

系统内置采集器

系统内置采集器由DataWorks平台预置并自动执行采集（准实时），主要用于采集与DataWorks深度集成的核心元数据。您无需创建，仅需进行简单的范围管理。

重要

若在数据地图中，没有找到目标表，可进入我的数据 > 我的工具 > 刷新表元数据，手动同步相关表。

MaxCompute 默认采集器

用于采集您账号下MaxCompute项目的元数据。您可以进入详情页，通过修改数据范围来选择需要采集的项目，并通过权限配置来设置元数据在租户内的可见性。

在元数据采集页面的系统内置区域，找到 MaxCompute Default Crawler 卡片，单击详情。
MaxCompute Default Crawler详情页包含基本信息和数据范围两个标签页。
- 基本信息：展示采集器的基础属性，如采集类型、方式等，此处信息为只读。
- 数据范围：管理此采集器要采集哪些MaxCompute项目。
修改采集范围：
1. 切换到数据范围页签，单击修改数据范围按钮。
2. 在弹出的对话框中，勾选或取消勾选您希望采集的MaxCompute项目。
  重要
  默认范围为本租户下当前地域下绑定到工作空间的所有MaxCompute项目。修改数据范围后，在数据地图中采集的元数据对象和当前数据范围保持一致，即未勾选的元数据将不可见。
3. 单击确定保存更改。
配置元数据可见性：
- 在数据范围列表中，找到目标项目，单击其操作列下的权限配置。
- 根据您的数据治理要求，选择可见性策略：
  - 租户内公开：租户内所有成员都可以搜索和查看该项目的元数据。
  - 仅关联的工作空间下的成员可搜索和查看：只有特定工作空间的成员才能访问该项目的元数据，保障数据的隔离性。

DLF 默认采集器

重要

若需支持 DLF 元数据的实时采集，需要在 DLF 控制台授予服务关联角色AliyunServiceRoleForDataworksOnEmr的Data Reader权限。

DLF Default Crawler采集器用于采集您账号下DLF（Data Lake Formation）中的元数据。

在元数据采集页面的系统内置区域，找到 DLF Default Crawler 卡片，单击详情查看基本信息。
切换到数据范围页签，查看当前已纳入采集范围的DLF Catalog列表及其包含的表数量。
默认会采集所有可访问的Catalog（包含DLF以及DLF-Legacy版本）。

自定义采集器

当您需要采集Hologres、StarRocks、MySQL、Oracle、CDH Hive等多种数据源的元数据时，需要创建自定义采集器。

创建自定义采集器

在元数据采集页面的自定义采集器列表区域，单击新建元数据采集。
选择采集类型：在类型选择页面，选择要采集的目标数据源类型，例如Hologres、StarRocks等。
配置基础与资源组：
- 基础配置：
  - 选择工作空间：选择采集数据源所在的工作空间。
  - 选择数据源：从下拉列表中选择一个已创建好的目标数据源。选择后，系统会自动展示该数据源的详细信息。
  - 名称：为采集器命名，以便后续识别。默认和数据源同名。
- 资源组配置：
  - 资源组：选择一个用于执行采集任务的资源组。
  - 测试连通性：此步骤至关重要。单击测试连通性，确保资源组可以成功访问数据源。
    重要
    请确认数据源是否开启白名单限制，如果需要采集已开启白名单访问控制的元数据，请参考网络连通方案概述和通用配置：添加白名单配置白名单权限。
    如果数据源未开启白名单限制，请参考资源组操作及网络连通文档进行数据源网络打通。
配置元数据采集：
- 采集范围：定义需要采集的数据库（Database/Schema）。若数据源为数据库粒度，默认选中数据源对应的数据库，可支持选择数据源之外的更多数据库。
  重要
  - 同一个数据库仅支持配置在一个采集器中，若不可勾选数据库，则表示该数据库已被其他采集器采集。
  - 当缩小采集范围后，数据地图中将搜索不到采集范围外的元数据。
配置智能增强与采集计划：
- 智能增强配置 (Beta)：
  - AI采集描述：开启后，系统将利用大模型能力，在采集元数据后，为您的表和字段自动生成业务描述，极大提升元数据可读性和易用性。可在采集完毕之后，进入数据地图表对象的详情页查看AI智能生成的信息（例如，表说明、字段描述）。
- 采集计划：
  - 触发方式：选择手动或周期。
    - 手动：采集器仅在您手动触发时运行，适用于一次性或按需采集的场景。
    - 周期：配置定时任务（如每月、每日、每周、每小时），系统将自动周期性地更新元数据。
      若需要配置分钟级定时任务，采集周期选择每小时，并勾选所有分钟粒度，可实现每5分钟的定时任务。
      重要
      仅生产环境数据源支持周期采集方式。
保存配置：单击保存或保存并运行，完成采集器的创建。

管理自定义采集器

采集器创建后，会出现在自定义列表中，您可以进行如下管理操作：

列表操作：在列表中，您可以直接对采集器进行运行、停止、删除等操作。通过顶部的筛选和搜索功能，可以快速定位目标采集器。
重要
删除元数据采集器后，该采集器在数据地图中采集的元数据对象也将失效，用户将无法搜索、查看来自于该采集器的对象及详细信息。请谨慎操作！
查看详情与日志：单击目标采集器名称，进入其详情页。
- 基本信息：查看采集器的所有配置项。
- 数据范围：查看或修改数据范围。
  未采集时查看，表数量和最近更新时间将显示为空。
  以下数据源不支持修改范围：EMR Hive、CDH Hive、Lindorm、ElasticSearch、OTS以及 AnalyticDB MySQL中的AnalyticDB for Spark。
- 运行日志：跟踪每一次采集任务的执行历史。您可以查看任务的开始时间、耗时、状态和采集的数据量。当任务失败时，单击查看日志是定位和解决问题的关键入口。
手动执行采集：在详情页右上角，单击采集元数据按钮，可以立即触发一次采集任务。适用于在新表创建后希望立刻在数据地图中看到它的场景。

后续步骤

元数据采集成功后，您便可以充分利用数据地图的各项能力：

在数据地图中搜索您采集的表，查看其详情、字段信息、分区和数据预览。详情请参见元数据详情。
分析表的上下游血缘关系，了解数据加工全链路。详情请参见血缘查看。
将资产加入数据专辑，从业务视角组织和管理您的数据。详情请参见数据专辑。

常见问题

Q：MySQL等数据库类采集超时或失败？
A：请检查是否将资源组的交换机网段添加至白名单。

附录：采集范围和实效

数据表

数据源类型	采集方式	采集粒度	元数据更新时效性
数据源类型	采集方式	采集粒度	表/字段	分区	血缘
MaxCompute	系统默认自动采集	实例	普通项目：实时外部项目：T+1	中国内地地域：实时海外地域：T+1	实时
Data Lake Formation（DLF）	系统默认自动采集	实例	实时	实时	Serverless Spark、Serverless StarRocks、Serverless Flink引擎的DLF 元数据，支持展示血缘；其他不支持。重要若为EMR集群，需开启EMR_HOOK。
Hologres	手动创建采集器	库	取决于采集周期	不支持	实时
EMR Hive		实例	取决于采集周期	取决于采集周期	实时重要需要为集群开启EMR_HOOK。
CDH Hive		实例	取决于采集周期	实时	实时
StarRocks		库	实例模式：实时。连接串模式：取决于采集周期。	不支持	实时重要仅实例模式支持血缘信息采集，连接串模式无法采集血缘信息。
AnalyticDB for MySQL		库	取决于采集周期	不支持	实时说明需要提交工单为AnalyticDB for MySQL实例开启数据血缘功能。
AnalyticDB for Spark		实例	实时	不支持	实时
AnalyticDB for PostgreSQL		库	取决于采集周期	不支持	实时
Lindorm		实例	取决于采集周期	不支持	实时
OTS		实例	取决于采集周期	不支持	不支持
其他数据源类型（MySQL、PostgreSQL、SQL Server、Oracle、ClickHouse等）		库	取决于采集周期	不支持	不支持

说明

AnalyticDB for Spark与AnalyticDB for MySQL使用同一个元数据采集入口。

任务代码

数据地图支持任务代码搜索与快速定位，以下为支持搜索的代码范围说明。

代码来源	采集口径	触发采集方式
数据开发	数据开发 - 创建节点并编辑代码	自动采集
数据开发（旧版）	数据开发（旧版） - 创建节点并编辑代码
数据分析	数据分析 - 新建SQL查询并编辑代码
数据服务	数据服务 - 新建API数据推送服务

API资产

数据地图支持查看数据服务API的元数据，具体如下：

API类型	采集口径	触发采集方式
生成API（向导模式）	数据服务 - 通过向导模式创建API	自动采集
生成API（脚本模式）	数据服务 - 通过脚本模式创建API
注册API	数据服务 - 注册API
服务编排	数据服务 - 新建服务编排

AI资产

数据地图支持查看与管理AI资产，并提供AI资产血缘功能用于追踪数据和模型的来源、使用及演变过程，以下为各AI资产的支持情况。

资产类型	采集口径	触发采集方式
数据集	PAI - 创建数据集/注册数据集 DataWorks-创建数据集	自动采集
AI模型	PAI - 模型训练任务/注册模型/部署模型服务
算法任务	PAI - 训练任务/工作流任务/分布式训练任务
模型服务	PAI - 部署模型服务（EAS部署）

工作空间

数据地图支持查看工作空间元数据，具体如下：

项目	采集方式	触发采集方式
工作空间	DataWorks - 创建工作空间	自动采集