本文为您介绍如何新建E-MapReduce采集器,采集E-MapReduce元数据至DataWorks。采集完成后,您可以在数据地图查看相关数据。

前提条件

在工作空间绑定EMR引擎后,您才可以进行EMR元数据采集操作,EMR引擎绑定详情请参见:绑定E-MapReduce计算引擎

背景信息

全量采集元数据后,系统会开启自动增量采集,自动同步表中新增的元数据。

使用限制

  • 一个集群仅支持新建一个采集器,一个采集器中可以选择一个或多个需要进行元数据采集的DB。
  • 仅阿里云主账号,拥有AliyunDataWorksFullAccess权限的子账号、元数据采集管理员可以进行采集。

新建采集器

  1. 登录DataWorks控制台后,进入数据地图页面,操作详情请参见进入首页
  2. 在顶部菜单栏,单击数据发现
  3. 新建采集器。
    1. 在左侧导航栏,单击元数据采集 > E-MapReduce
    2. E-MapReduce元数据采集页面,单击新建采集器
      新建采集器
  4. 配置采集器。
    1. 新建采集器对话框中,单击选择集群下拉列表,选择目标集群。
      说明
      新建采集器
    2. 可选:单击选择DB下拉列表选择需要进行元数据采集的DB,如果不选择,默认采集该集群内所有DB的元数据。
    3. 单击前往开启授权,在E-MapReduce控制台中所选集群的元数据页面,单击开启元数据收集
      开启元数据收集
      说明
      • DataWorks新绑定的EMR集群,默认已开启元数据收集权限。
      • DataWorks已绑定但还未采集元数据的EMR集群,需要前往开启授权。
    4. 在弹出的确认开关变更对话框中,单击确定
    5. 成功开启元数据收集后,返回数据地图中的新增采集器对话框,单击刷新
    6. 授权状态刷新为已授权后,单击确定,即可完成采集器的创建。

管理采集器

您可以在E-MapReduce元数据采集页面,对已创建的采集器进行删除、运行采集等操作。采集器
序号 描述
在该区域,您可以输入采集器名称,搜索目标采集器。
说明 搜索采集器支持模糊匹配,即输入关键词,即可显示名称中包含该关键词的所有采集器。
在该区域,您可以查看相应采集器的运行状态采集对象上次运行时间等信息。
  • 运行状态:已创建的采集器的状态。
    • 收集成功:表示采集器已成功完成元数据采集。
    • 从未同步:表示您创建采集器后还未运行采集。
    • 采集失败:表示运行采集器后元数据采集失败,您可以尝试重新运行采集,如果还未成功,请提交工单联系我们处理。
  • 采集对象:展示已采集的DB信息。
  • 上次运行时间:表示上次运行采集器的时间。
您还可以对目标采集器执行如下操作:
  • 运行采集:运行采集器,根据目标采集器的配置信息采集数据。
    • 对未运行采集的集群,您可以单击操作列的运行采集,执行成功后,运行状态变为收集成功,完成元数据采集。
    • 对已运行采集的集群,操作列的运行采集按钮无法单击。如果需要重新选择DB进行采集,您可以单击删除按钮,删除相应采集器后,重新创建采集器。
  • 删除:如果您需要删除采集器,请单击相应采集器后的删除,在删除实例对话框中,单击确定
在该区域,您可以执行如下操作:
  • 手工同步:如果表存在但是搜索不到或者表更新了但是数据地图显示还未更新,您可以单击手工同步,选择目标集群ID数据库表名后,手工同步该表。
  • 刷新:刷新采集器运行的状态及结果。

后续步骤

采集E-MapReduce元数据成功后,您可以在数据地图的全部数据页签查看已采集的数据详情。详情请参见查找表