DataWorks数据地图为您提供元数据采集功能,方便您将DataWorks不同数据源的元数据进行统一汇总管理,您可以在数据地图查看从各数据源汇集而来的元数据信息。本文为您介绍如何创建采集器,将各数据源的元数据信息汇集至DataWorks。
功能概述
元数据采集是构建企业级数据地图、实现数据资产统一管理的核心功能。它通过运行“采集器”(Crawler),自动地从分散在同一地域下不同工作空间的DataWorks数据源(如MaxCompute、Hologres、MySQL、CDH Hive等),抽取技术元数据(库、表、字段等)、数据血缘、分区信息等,汇集到DataWorks数据地图中,为您提供统一的数据视图。
通过元数据采集,您可以:
构建统一数据视图:打破数据孤岛,将多源异构的元数据集中管理。
支持数据发现与搜索:让数据消费者能快速、准确地找到所需数据。
实现全链路血缘分析:清晰地追溯数据的来龙去脉,便于影响分析和问题排查。
赋能数据治理:基于完整的元数据进行数据分类分级、权限管控、质量监控和生命周期管理。
计费说明
使用限制
功能入口
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的,在右侧页面中单击进入数据地图。
在左侧导航栏中,单击
进入元数据采集页面。
系统内置采集器
系统内置采集器由DataWorks平台预置并自动执行采集(准实时),主要用于采集与DataWorks深度集成的核心元数据。您无需创建,仅需进行简单的范围管理。
若在数据地图中,没有找到目标表,可进入,手动同步相关表。
MaxCompute 默认采集器
用于采集您账号下MaxCompute项目的元数据。您可以进入详情页,通过修改数据范围来选择需要采集的项目,并通过权限配置来设置元数据在租户内的可见性。
在元数据采集页面的系统内置区域,找到 MaxCompute Default Crawler 卡片,单击详情。
MaxCompute Default Crawler详情页包含基本信息和数据范围两个标签页。
基本信息:展示采集器的基础属性,如采集类型、方式等,此处信息为只读。
数据范围:管理此采集器要采集哪些MaxCompute项目。
修改采集范围:
切换到数据范围页签,单击修改数据范围按钮。
在弹出的对话框中,勾选或取消勾选您希望采集的MaxCompute项目。
重要默认范围为本租户下当前地域下绑定到工作空间的所有MaxCompute项目。修改数据范围后,在数据地图中采集的元数据对象和当前数据范围保持一致,即未勾选的元数据将不可见。
单击确定保存更改。
配置元数据可见性:
在数据范围列表中,找到目标项目,单击其操作列下的权限配置。
根据您的数据治理要求,选择可见性策略:
租户内公开:租户内所有成员都可以搜索和查看该项目的元数据。
仅关联的工作空间下的成员可搜索和查看:只有特定工作空间的成员才能访问该项目的元数据,保障数据的隔离性。
DLF 默认采集器
若需支持 DLF 元数据的实时采集,需要在 DLF 控制台授予服务关联角色AliyunServiceRoleForDataworksOnEmr的Data Reader权限。
DLF Default Crawler采集器用于采集您账号下DLF(Data Lake Formation)中的元数据。
在元数据采集页面的系统内置区域,找到 DLF Default Crawler 卡片,单击详情查看基本信息。
切换到数据范围页签,查看当前已纳入采集范围的DLF Catalog列表及其包含的表数量。
默认会采集所有可访问的Catalog(包含DLF以及DLF-Legacy版本)。
自定义采集器
当您需要采集Hologres、StarRocks、MySQL、Oracle、CDH Hive等多种数据源的元数据时,需要创建自定义采集器。
创建自定义采集器
在元数据采集页面的自定义采集器列表区域,单击新建元数据采集。
选择采集类型:在类型选择页面,选择要采集的目标数据源类型,例如Hologres、StarRocks等。
配置基础与资源组:
基础配置:
选择工作空间:选择采集数据源所在的工作空间。
选择数据源:从下拉列表中选择一个已创建好的目标数据源。选择后,系统会自动展示该数据源的详细信息。
名称:为采集器命名,以便后续识别。默认和数据源同名。
资源组配置:
资源组:选择一个用于执行采集任务的资源组。
测试连通性:此步骤至关重要。单击测试连通性,确保资源组可以成功访问数据源。
重要请确认数据源是否开启白名单限制,如果需要采集已开启白名单访问控制的元数据,请参考网络连通方案概述和通用配置:添加白名单配置白名单权限。
如果数据源未开启白名单限制,请参考资源组操作及网络连通文档进行数据源网络打通。
配置元数据采集:
采集范围:定义需要采集的数据库(Database/Schema)。若数据源为数据库粒度,默认选中数据源对应的数据库,可支持选择数据源之外的更多数据库。
重要同一个数据库仅支持配置在一个采集器中,若不可勾选数据库,则表示该数据库已被其他采集器采集。
当缩小采集范围后,数据地图中将搜索不到采集范围外的元数据。
配置智能增强与采集计划:
智能增强配置 (Beta):
AI采集描述:开启后,系统将利用大模型能力,在采集元数据后,为您的表和字段自动生成业务描述,极大提升元数据可读性和易用性。可在采集完毕之后,进入数据地图表对象的详情页查看AI智能生成的信息(例如,表说明、字段描述)。
采集计划:
触发方式:选择手动或周期。
手动:采集器仅在您手动触发时运行,适用于一次性或按需采集的场景。
周期:配置定时任务(如每月、每日、每周、每小时),系统将自动周期性地更新元数据。
若需要配置分钟级定时任务,采集周期选择每小时,并勾选所有分钟粒度,可实现每5分钟的定时任务。
重要仅生产环境数据源支持周期采集方式。
保存配置:单击保存或保存并运行,完成采集器的创建。
管理自定义采集器
采集器创建后,会出现在自定义列表中,您可以进行如下管理操作:
列表操作:在列表中,您可以直接对采集器进行运行、停止、删除等操作。通过顶部的筛选和搜索功能,可以快速定位目标采集器。
重要删除元数据采集器后,该采集器在数据地图中采集的元数据对象也将失效,用户将无法搜索、查看来自于该采集器的对象及详细信息。请谨慎操作!
查看详情与日志:单击目标采集器名称,进入其详情页。
基本信息:查看采集器的所有配置项。
数据范围:查看或修改数据范围。
未采集时查看,表数量和最近更新时间将显示为空。
以下数据源不支持修改范围:EMR Hive、CDH Hive、Lindorm、ElasticSearch、OTS以及 AnalyticDB MySQL中的AnalyticDB for Spark。
运行日志:跟踪每一次采集任务的执行历史。您可以查看任务的开始时间、耗时、状态和采集的数据量。当任务失败时,单击查看日志是定位和解决问题的关键入口。
手动执行采集:在详情页右上角,单击采集元数据按钮,可以立即触发一次采集任务。适用于在新表创建后希望立刻在数据地图中看到它的场景。
后续步骤
元数据采集成功后,您便可以充分利用数据地图的各项能力:
常见问题
Q:MySQL等数据库类采集超时或失败?
A:请检查是否将资源组的交换机网段添加至白名单。
附录:采集范围和实效
数据表
数据源类型 | 采集方式 | 采集粒度 | 元数据更新时效性 | ||
表/字段 | 分区 | 血缘 | |||
MaxCompute | 系统默认自动采集 | 实例 | 普通项目:实时 外部项目:T+1 | 中国内地地域:实时 海外地域:T+1 | 实时 |
Data Lake Formation(DLF) | 实例 | 实时 | 实时 | Serverless Spark、Serverless StarRocks、Serverless Flink引擎的DLF 元数据,支持展示血缘;其他不支持。 重要 若为EMR集群,需开启EMR_HOOK。 | |
Hologres | 手动创建采集器 | 库 | 取决于采集周期 | 实时 | |
EMR Hive | 实例 | 取决于采集周期 | 取决于采集周期 | 实时 重要 需要为集群开启EMR_HOOK。 | |
CDH Hive | 实例 | 取决于采集周期 | 实时 | 实时 | |
StarRocks | 库 |
| 实时 重要 仅实例模式支持血缘信息采集,连接串模式无法采集血缘信息。 | ||
AnalyticDB for MySQL | 库 | 取决于采集周期 | 实时 说明 需要提交工单为AnalyticDB for MySQL实例开启数据血缘功能。 | ||
AnalyticDB for Spark | 实例 | 实时 | 实时 | ||
AnalyticDB for PostgreSQL | 库 | 取决于采集周期 | 实时 | ||
Lindorm | 实例 | 取决于采集周期 | 实时 | ||
OTS | 实例 | 取决于采集周期 | |||
其他数据源类型(MySQL、PostgreSQL、SQL Server、Oracle、ClickHouse等) | 库 | 取决于采集周期 | |||
AnalyticDB for Spark与AnalyticDB for MySQL使用同一个元数据采集入口。
任务代码
数据地图支持任务代码搜索与快速定位,以下为支持搜索的代码范围说明。
代码来源 | 采集口径 | 触发采集方式 |
数据开发 | 数据开发 - 创建节点并编辑代码 | 自动采集 |
数据开发(旧版) | 数据开发(旧版) - 创建节点并编辑代码 | |
数据分析 | 数据分析 - 新建SQL查询并编辑代码 | |
数据服务 | 数据服务 - 新建API数据推送服务 |
API资产
数据地图支持查看数据服务API的元数据,具体如下:
API类型 | 采集口径 | 触发采集方式 |
生成API(向导模式) | 数据服务 - 通过向导模式创建API | 自动采集 |
生成API(脚本模式) | 数据服务 - 通过脚本模式创建API | |
注册API | 数据服务 - 注册API | |
服务编排 | 数据服务 - 新建服务编排 |
AI资产
数据地图支持查看与管理AI资产,并提供AI资产血缘功能用于追踪数据和模型的来源、使用及演变过程,以下为各AI资产的支持情况。
资产类型 | 采集口径 | 触发采集方式 |
数据集 |
| 自动采集 |
AI模型 | PAI - 模型训练任务/注册模型/部署模型服务 | |
算法任务 | PAI - 训练任务/工作流任务/分布式训练任务 | |
模型服务 | PAI - 部署模型服务(EAS部署) |
工作空间
数据地图支持查看工作空间元数据,具体如下:
项目 | 采集方式 | 触发采集方式 |
工作空间 | DataWorks - 创建工作空间 | 自动采集 |