文档

新建及管理元数据采集任务

更新时间:

采集任务通过采集适配器连接到指定的数据源,将源数据库中的对象元数据信息采集至Dataphin,通过内置解析器进行解析后存储并进行统一呈现。本文为您介绍如何新建及管理元数据采集任务。

使用限制

若采集的元数据存在同名但名称大小写不一致的情况时,系统仅识别计算引擎默认支持的写法(如Oracle默认识别大写名称对象),其他同名元数据不做处理。

权限说明

超级管理员、系统管理员和具有元数据采集任务管理权限的自定义全局角色支持新建及管理元数据采集任务、查看采集任务列表。

新建采集任务

  1. 在Dataphin首页,单击顶部菜单栏的治理-元数据

  2. 按照以下操作指引,进入新建采集任务对话框。

    依次单击采集任务-新建采集任务

    image

  3. 新建采集任务对话框中,配置参数。

    image

    参数

    描述

    采集任务名称

    采集任务的名称,全局唯一,不超过512个字符。

    负责人

    采集任务的负责人,可选择具有采集任务管理权限的成员。

    采集任务描述

    可添加采集任务的描述,不超过1000个字符。

    数据源

    根据数据源类型筛选数据源。支持的数据源类型包括MySQLOraclePostgreSQLMicrosoft SQL Server

    您可以点击查看,跳转至数据源管理页面,系统会为您筛选出相关的数据源。

    说明
    • 若选中的数据源未配置数据源编码,后续可能无法通过JDBC或在BI平台使用已采集的元数据。如果需要配置数据源编码,详情请参见Dataphin支持的数据源

    • 一个数据源仅支持配置一个采集任务,同一个数据源的2个不同环境源(开发环境和生产环境)可分别配置采集任务。

    采集范围

    您可以根据不同的数据源类型配置不同的任务采集范围。

    • 当数据源类型为MySQL时,将根据数据源配置的JDBC URL自动解析对应的dbname(数据库名称)。

    • 当数据源类型为OraclePostgreSQLMicrosoft SQL Server时,支持根据schema(即数据源实例下的数据库名称)配置采集范围,您可以选择填充默认schema,也可以根据数据源配置指定其他有权限的schema。

    采集对象类型

    支持视图字段三种采集对象类型。

    归属业务系统

    请选择从该来源采集的元数据归属的业务系统,后续可用于资产对象筛选、业务系统血缘关系展示等场景。如需创建,请参见查看及管理业务系统元数据

  4. 单击下一步,配置采集策略。

    image

    参数

    描述

    数据更新策略

    新增/变更元数据

    对比上一次采集,若源系统有新增、更新的数据,系统将会添加新的元数据,更新已变更元数据

    已删除元数据

    对比上一次采集,若源系统有删除的数据,可选择从元数据清单及资产清单中删除忽略删除操作

    • 从元数据清单及资产清单中删除:同步删除已经采集的元数据信息,删除后无法恢复。

    • 忽略删除操作:忽略源系统的删除操作,仍可在元数据清单和资产清单中查看该对象详情和历史版本,后续可手动删除。

    数据采集计划

    采集频率

    用于控制任务采集的频率,支持定时采集手动采集

    • 定时采集:根据配置的调度时间自动执行任务的采集,适用于对采集任务更新时效性较高的场景,支持每日每周每月,可配置的定时开始执行时间区间为00:00~23:59。当选择每月调度时间,支持选择月末日

    • 手动采集:需要手动触发任务的采集,适用于元数据变更频率较低且希望节约资源的场景。

    运行配置

    出错重试

    针对运行失败的采集实例,可以根据配置的重试次数重试间隔决定是否重新运行采集实例。

    • 重试次数:采集实例运行失败后是否需要自动重试运行以及最大可自动重试的次数。默认1次,支持配置1~10次之间的正整数。

    • 重试间隔:每次自动重新运行的时间间隔。默认5分钟,支持配置的时间范围为1~60分钟。

    说明

    出错重试和定时采集可能会产生冲突,如果到达下一个采集时间点,上一次采集任务运行仍未结束,则下一次定时采集将会自动推迟,您可以在采集实例列表手动终止任务执行,详情请参见查看及管理采集实例

    运行超时

    若采集任务的运行总时长(开始运行到结束运行时间,不包括资源等待和调度等待时间)超过设置的阈值仍未结束,系统会自动终止并置为失败。支持设置的时间范围为0~24小时,最多设置一位小数。

    调度资源

    采集任务调度时将占用该资源组的资源配额,为了避免并发过高占用较多资源影响其他系统任务正常运行,全局所有租户创建的采集任务遵循统一的并发运行数,请合理分配调度资源。支持选择当前租户下创建的状态为正常的资源组。

    连接配置

    不同的数据源类型展示不同的数据源连接配置,支持修改,详情请参见Dataphin支持的数据源

    • 当数据源类型为Oracle时,支持配置连接重试次数。

    • 当数据源类型为MySQLPostgreSQLMicrosoft SQL Server时,支持配置connectTimeout、socketTimeout、连接重试次数。

    说明

    当前的连接配置将同时应用于离线集成任务、全域质量监控规则、元数据采集任务。

  5. 单击确定,完成采集任务的创建。

查看采集任务

您可以在采集任务列表中查看已配置的采集任务。

image

区域

描述

搜索与筛选区

您可以根据采集任务的名称进行模糊搜索,也可以快捷筛选我负责的任务生效任务,或者根据任务状态生效状态负责人数据源类型数据源环境数据源采集方式进行精确筛选。

采集任务列表

为您展示采集任务的名称、采集的数据源类型、数据源及数据源编码、负责人、采集方式、最近1次采集的状态和时间、描述、生效状态、任务状态、最近更新时间信息。

管理采集任务

image

任务状态

任务状态

操作项

正常

查看、编辑、临时手动执行(定时采集任务支持该操作)、手动执行(手动任务支持该操作)、克隆、删除、查看元数据、查看采集实例、开启或关闭生效状态。

创建失败

重试、查看执行日志、查看、编辑、删除。

更新失败/删除失败/置为生效失败/置为失效失败

重试、查看执行日志、查看、编辑、删除、查看元数据、查看采集实例。

置为生效中/置为失效中

查看。

置为生效中或置为失效中时不支持修改生效状态。

创建中/更新中/删除中

查看。

异常

查看、编辑、删除、查看元数据、查看采集实例。

单个操作

不同的任务状态支持不同的任务操作,详情请参见任务状态

操作项

描述

重试

支持将运行失败的采集任务重新运行。

查看执行日志

支持查看运行失败的采集任务的运行日志。

查看

支持查看采集任务的配置信息。

编辑

不支持修改数据源类型和数据源,其他信息修改后,不影响生效状态。

临时手动执行

仅正常状态的定时采集任务支持临时手动执行,如果在到达下一次定时运行时间时本次运行的实例仍未结束,可能会导致数据不一致。若该任务已经存在一个正在运行中的实例(定时采集实例和临时手动执行的采集实例),需要先终止该实例,然后再重新操作。

手动执行

仅正常状态的手动采集任务支持手动执行,若该任务已经存在一个正在运行中的实例(定时采集实例和临时手动执行的采集实例),需要先终止该实例,然后再重新操作。

克隆

支持快速复制采集任务的配置信息,但是需要重新配置数据源和采集范围。

删除

删除任务不会影响正在运行中的实例,如果需要,您可以手动终止。任务删除成功后,不会继续生成新的采集实例。支持配置的删除策略为同步删除已采集的元数据仅删除任务,保留已采集的元数据

  • 同步删除已采集的元数据:同步从元数据清单列表和资产清单中删除通过该任务从指定数据源采集到的元数据。

  • 仅删除任务,保留已采集的元数据:仅删除采集任务本身,在元数据清单和资产清单中保留从指定数据源已经采集到的元数据。后续如果选择相同的数据源重新创建采集任务,可能会覆盖已保留的元数据信息。

查看元数据清单

支持跳转至元数据清单列表页面,系统会为您筛选出该任务配置的数据源相关的元数据信息。

查看采集实例

支持跳转至采集实例列表页面,系统会为您筛选出与该任务相关的实例。

修改生效状态

开启后,采集任务将会按照配置的调度自动执行;关闭后,正在运行中或已生成待运行的实例不受影响,后续生成的采集实例将不会自动执行,您可以手动运行任务。

批量操作

您可以对采集任务执行置为生效、置为失效、删除操作。

后续步骤