本文为您介绍如何新建采集器,采集OSS元数据至DataWorks。采集完成后,您可以在数据地图查看数据。

背景信息

仅华东2(上海)地域支持采集OSS元数据,处于邀测阶段。

操作步骤

  1. 进入数据发现页面。
    1. 登录DataWorks控制台
    2. 在左侧导航栏,单击工作空间列表
    3. 选择工作空间所在地域后,单击相应工作空间后的进入数据开发
    4. 单击左上角的图标图标,选择全部产品 > 数据地图
    5. 在顶部菜单栏,单击数据发现
  2. 在左侧导航栏,单击OSS
  3. OSS元数据采集页面,单击新建采集器
  4. 新建采集器配置向导页面,完成以下操作。
    1. 基本信息页签下,配置各项参数。
      新建采集器
      参数 描述
      采集器名称 采集器的名称,必填且唯一。
      采集器描述 对采集器进行简单描述。
      数据源类型 采集对象的类型,默认为OSS
    2. 单击下一步
    3. 选择采集对象页签下,配置各项参数。
      选择采集对象
      参数 描述
      数据源 数据源列表中,选择需要采集的OSS数据源。如果没有您需要的数据源,请进入工作空间管理 > 数据源管理页面新建,详情请参见配置OSS数据源
      对象路径 待采集的OSS对象路径。
      遍历路径 是否遍历采集指定对象路径下的子路径。
      表前缀 采集器自动生成表时加的表名前缀,默认使用OSS对象名称作为表名。
    4. 单击下一步
    5. 配置执行计划页签下,配置各项参数。
      配置执行计划
      参数 描述
      执行计划 包括按需执行每月每周每天每小时自定义
      更新选项 设置更新目标表的条件。
      删除选项 设置删除目标表的条件。
    6. 单击下一步
    7. 信息确认页签下,确认配置信息无误后,单击确认
  5. OSS元数据采集页面,单击相应采集器后的运行
    运行完成后,单击上次运行更新表上次运行添加表列的数据,即可查看采集的表。
    您还可以在该页面进行以下操作:
    • 单击相应采集器后的详情,在采集器详情对话框中,查看该采集器的详情。
    • 单击相应采集器后的编辑,在编辑采集器对话框中,修改该采集器的信息。
    • 单击相应采集器后的删除,在请确认对话框中,单击确认,删除该采集器。
    • 单击处于运行中状态的采集器后的停止,停止运行该采集器。
  6. 查看OSS元数据。
    1. 在顶部菜单栏,单击全部数据
    2. 单击OSS
    3. OSS页签下,单击相应的表名,查看该表的详情。