全部产品

元数据发现

在业务运行中,经常会沉淀到大量数据到数据湖中这部分数据可能是没有像数据仓库一样经过严格的数据管理流程或沉淀规范明确的元数据信息。元数据发现可以分析数据湖中特定格式的数据,并自动生成元数据信息,通过周期性或手动执行,实现数据湖分析计算shema on read目标。

使用限制

  1. 抽取的数据存储仅支持数据存储在阿里云OSS标准型中的数据。

  2. 目前元数据发现仅支持json,csv,parquet,orc格式。

  3. 元数据发现消耗算力不收取费用。

操作步骤

新建抽取任务

  1. 登陆数据湖构建控制台。

  2. 在左侧导航栏,单击元数据管理> 元数据抽取

  3. 在元数据抽取页面,单击新建抽取任务。

  4. 输入元数据抽取任务的配置参数,详细参数说明如下:

参数配置

字段描述

抽取任务名称

元数据抽取任务的名称,输入为中英文数字和(_)

OSS路径

指定待抽取数据的OSS目录

排除模式

排查指定OSS目录下的文件,支持正则匹配

解析格式

支持json,csv,parquet或orc中某一类格式进行抽取,采用自动识别模式会对数据文件自动解析。

目标元数据库

抽取获取的元数据存储的元数据库位置

目标元数据表前缀

通过元数据抽取生成跟文件一致的表名,输入目标元数据表前缀后,会在表名前添加前缀。

抽取任务发现表字段更新时

当元数据抽取任务获取的表与现有表字段发现不一致时,采取:

  • 仅新增列,不会删除元数据中原有的列

  • 更新表结构,根据最新探测的表结构生成新的表结果

  • 忽略更新,不修改任何表,现有元数据保持不变

如何处理OSS中发现已删除对象

当元数据抽取任务探测到原来表对应OSS数据已经被删除,采取:

  • 删除对应的元数据

  • 忽略更新,不删除任何表

RAM角色

执行元数据抽取任务时采用的角色,默认为AliyunDLFWorkFlowDefaultRole,赋予DLF产品有作业执行的权限

执行策略

  • 手动执行,通过手动方式触发任务执行。

  • 调度执行,周期性的通过指定时间执行元数据抽取任务。

5. 确认任务执行的相关参数,点击保存并立即执行。