本文将为您介绍数据发现的表、元数据获取和采集器三大功能。

进入方案

  1. 登录DataWorks控制台,单击相应工作空间后的进入数据开发
  2. 单击左上角的图标,选择全部产品 > 数据综合治理
  3. 进入方案管理页面。您可以通过以下两种方式进入方案管理页面:
    • 单击首页中的立即使用
    • 单击顶部菜单栏中的方案管理
  4. 单击相应方案后的查看详情,即可查看方案的详情。

进入方案的详情页面后,单击左侧导航栏中的数据发现 > ,即可对MaxCompute表、E-MapReduce Hive表和OSS逻辑表进行检索,以及查看表详情。

您可以在搜索下拉框中输入关键字进行搜索,搜索成功后,单击表名即可查看表的详情。

元数据获取

进入方案的详情页面后,单击左侧导航栏中的数据发现 > 元数据获取,即可新建EMR采集获取E-MapReduce Hive表的元数据。元数据获取
您可以在数据发现 > 元数据获取进行新建EMR采集实例、运行全量获取,以及删除采集实例等操作:
  • 新建EMR采集
    1. 单击新建EMR采集
    2. 新增EMR元数据获取中,选择引擎实例并开启对应集群的授权。新建采集
      如果未授权,请进行下述操作:
      1. 单击前往开启授权,跳转至E-MapReduce控制台中的集群服务 > Hive > 元数据页面。
      2. 单击开启元数据采集开启元数据采集
      3. 确认开关变更中,单击确定确定
    3. 确认授权状态已授权,单击提交

      新建完成后,即可在实例列表中进行查看和操作。

  • 运行全量获取

    单击相应实例后的运行全量获取,即可触发元数据的全量采集。采集成功后,该实例的运行状态收集成功

    收集成功后,您可以进入数据发现 > > E-MapReduce Hive表进行查看。

    说明 E-MapReduce Hive表元数据全量采集完成后,系统会开启自动增量采集,新增表的元数据会被自动同步。
  • 删除

    如果您需要删除采集实例,请单击相应实例后的删除

采集器

采集器页面为您提供OSS数据的元数据自动探查功能。进入方案的详情页面后,单击左侧导航栏中的数据发现 > 采集器,即可新建、编辑、运行、停止和删除采集器,并查看采集结果。采集器
  • 新建采集器
    1. 单击新建采集器,在新建采集器对话框中配置采集器的基本信息,单击下一步新建采集器
      配置 说明
      采集器名称 采集器的名称,必填且唯一。
      采集器描述 对采集器进行简单描述。
      数据源类型 采集对象的类型,目前仅支持OSS。
    2. 填写选择爬取对象类型中的配置,单击下一步选择爬取对象类型
      配置 说明
      数据源 需要采集的OSS数据源,请在下拉列表中进行选择,必选项。如果没有需要的数据源,请进入数据准备 > 数据源页面新建。
      对象路径 输入或选择待采集的OSS对象路径,必选项。
      遍历路径 设置是否遍历采集指定对象路径下的子路径,必选项。
      表前缀 采集器自动生成表时加的表名前缀,默认使用OSS对象名称作为表名。
    3. 填写配置执行计划对话框中的配置,单击下一步配置执行计划
      配置 说明
      执行计划 包括按需执行每月每周每天每小时自定义
      更新选项 设置更新的条件。
      删除选项 设置删除的条件。
    4. 配置完成后,进行信息确认。确认无误,单击确认
  • 详情

    单击相应采集器后的详情,即可在采集器详情中进行查看。

  • 编辑

    单击相应采集器后的编辑,即可在编辑采集器对话框中进行修改。

  • 删除

    单击相应采集器后的删除,在请确认对话框中单击确认,即可删除该采集器。

  • 运行

    单击相应采集器后的更多 > 运行,即可触发采集。

    运行完成后,单击上次运行更新表上次运行添加表列的数据,即可查看采集的表。您也可以进入数据准备 > 进行检索和查看。