DataWorks数据地图为您提供元数据采集器,便于您采集E-MapReduce所有DB或指定某些DB的元数据,同时您也可以使用手动同步表功能直接采集单表的元数据,提高单表元数据采集效率,元数据采集完成后,您可以在数据地图查看相关数据。本文为您介绍如何采集E-MapReduce元数据至DataWorks。
前提条件
在工作空间绑定EMR引擎后,您才可以进行EMR元数据采集操作,EMR引擎绑定详情请参见:创建并管理工作空间。背景信息
使用元数据采集器全量采集元数据后,系统会开启自动增量采集,自动同步EMR表中新增的元数据至DataWorks。使用限制
- 一个集群仅支持新建一个元数据采集器,一个采集器中可以选择一个或多个需要进行元数据采集的DB。
- 不同类型的EMR集群、不同的元数据存储类型支持的元数据采集能力不一致,详情见下表。
EMR集群类型 元数据存储类型 采集单表的元数据 (全部数据中手工同步)
采集整库的元数据 (数据发现中新建采集器)
新版数据湖(DataLake)集群 DLF统一元数据 支持 无需配置,系统自动更新元数据 自建RDS / 内置MySQL 支持 需要配置,按需手动更新元数据 旧版Hadoop集群 DLF统一元数据 支持 无需配置,系统自动更新元数据 自建RDS / 内置MySQL 不支持 需要配置,按需手动更新元数据 说明- EMR集群的两种元数据存储类型的详细介绍请参见管理元数据。
- 如果您只想采集某个表的元数据至DataWorks,您可以在全部数据页面中手工同步元数据,操作详情请参见采集单表的元数据:手动同步表。
- 如果您需要采集所有DB或某些DB中的整库元数据,您可以使用元数据采集器功能,操作详情请参见下文的采集整库的元数据:新建采集器。
- 仅阿里云主账号,拥有AliyunDataWorksFullAccess权限的子账号、元数据采集管理员可以进行采集。
采集单表的元数据:手动同步表
- 登录DataWorks控制台后,进入数据地图页面,操作详情请参见进入首页。
- 在顶部菜单栏,单击全部数据。
- 单击右上角的手动同步表,选择数据类型为E-MapReduce,根据界面提示配置需要同步EMR表所在的EMR集群ID、数据库和表名信息。
- 完成配置后单击开始同步,即开始同步指定表的元数据。
采集整库的元数据:新建采集器
使用元数据采集器全量采集元数据后,系统会开启自动增量采集,自动同步EMR表中新增的元数据至DataWorks。
- 登录DataWorks控制台后,进入数据地图页面,操作详情请参见进入首页。
- 在顶部菜单栏,单击数据发现。
- 新建采集器。
- 配置采集器。
管理采集器
您可以在E-MapReduce元数据采集页面,对已创建的采集器进行删除、运行采集等操作。

序号 | 描述 |
---|---|
① | 在该区域,您可以输入采集器名称,搜索目标采集器。 说明 搜索采集器支持模糊匹配,即输入关键词,即可显示名称中包含该关键词的所有采集器。 |
② | 在该区域,您可以查看相应采集器的运行状态、采集对象、上次运行时间等信息。
您还可以对目标采集器执行如下操作:
|
③ | 在该区域,您可以执行如下操作:
|