本文为您介绍如何在数据发现模块,检索数据表、采集E-MapReduce元数据和OSS元数据。

进入方案的详情页面

  1. 登录DataWorks控制台
  2. 在左侧导航栏,单击工作空间列表
  3. 选择工作空间所在地域后,单击相应工作空间后的进入数据开发
  4. 数据开发页面,单击左上角的图标图标,选择全部产品 > 数据保护伞
  5. 数据保护伞页面,单击左上角的图标图标,选择全部产品 > 数据综合治理
  6. 进入方案管理页面。
    您可以通过以下两种方式进入方案管理页面:
    • 单击首页中的立即使用
    • 在顶部菜单栏,单击方案管理
  7. 单击相应方案后的查看详情

检索数据表

进入方案的详情页面后,在左侧导航栏,单击数据发现 > ,即可检索MaxCompute表、E-MapReduce Hive表和OSS逻辑表,并查看表详情。

您可以在搜索文本框中输入关键字进行搜索。搜索成功后,单击表名即可查看表的详情。

采集E-MapReduce元数据

  1. 在方案详情页面的左侧导航栏,单击数据发现 > 元数据获取
  2. E-MapReduce元数据采集页面,单击新建采集器
  3. 新建采集器对话框中,选择引擎实例后,单击前往开启授权
  4. 在E-MapReduce控制台中所选引擎实例的元数据页面,单击开启元数据收集
    开启元数据收集
  5. 确认开关变更对话框中,单击确定
  6. 成功开启元数据收集后,返回数据地图中的新增采集器对话框,单击刷新
  7. 授权状态刷新为已授权后,单击提交,即可开启元数据收集。
  8. E-MapReduce元数据采集页面,单击相应采集器后的运行全量获取
    单击页面右上角的刷新,待EMR采集实例的运行状态显示为收集成功即可。
    说明 全量采集E-MapReduce元数据后,系统会开启自动增量采集,自动同步表中新增的元数据。

    如果您需要删除采集器,请单击相应采集器后的删除,在删除实例对话框中,单击确认

采集OSS元数据

采集器页面为您提供OSS数据的元数据自动探查功能。进入方案的详情页面后,在左侧导航栏,单击,即可新建、编辑、运行、停止和删除采集器,并查看采集结果。采集器
  1. 在方案详情页面的左侧导航栏,数据发现 > 采集器
  2. OSS元数据采集页面,单击新建采集器
  3. 新建采集器配置向导页面,完成以下操作。
    1. 基本信息页签下,配置各项参数。
      新建采集器
      参数 描述
      采集器名称 采集器的名称,必填且唯一。
      采集器描述 对采集器进行简单描述。
      数据源类型 采集对象的类型,默认为OSS
    2. 单击下一步
    3. 选择采集对象页签下,配置各项参数。
      选择采集对象
      参数 描述
      数据源 数据源列表中,选择需要采集的OSS数据源。如果没有您需要的数据源,请进入工作空间管理 > 数据源管理页面新建,详情请参见配置OSS数据源
      对象路径 待采集的OSS对象路径。
      遍历路径 是否遍历采集指定对象路径下的子路径。
      表前缀 采集器自动生成表时加的表名前缀,默认使用OSS对象名称作为表名。
    4. 单击下一步
    5. 配置执行计划页签下,配置各项参数。
      配置执行计划
      参数 描述
      执行计划 包括按需执行每月每周每天每小时自定义
      更新选项 设置更新目标表的条件。
      删除选项 设置删除目标表的条件。
    6. 单击下一步
    7. 信息确认页签下,确认配置信息无误后,单击确认
  4. OSS元数据采集页面,单击相应采集器后的运行
    运行完成后,单击上次运行更新表上次运行添加表列的数据,即可查看采集的表。
    您还可以在该页面进行以下操作:
    • 单击相应采集器后的详情,在采集器详情对话框中,查看该采集器的详情。
    • 单击相应采集器后的编辑,在编辑采集器对话框中,修改该采集器的信息。
    • 单击相应采集器后的删除,在请确认对话框中,单击确认,删除该采集器。
    • 单击处于运行中状态的采集器后的停止,停止运行该采集器。