创建及管理元数据采集任务

采集任务通过采集适配器连接到指定的数据源,将源数据库中的对象元数据信息采集至Dataphin,通过内置解析器进行解析后存储并进行统一呈现。本文为您介绍如何创建及管理元数据采集任务。

使用限制

若采集的元数据存在同名但名称大小写不一致的情况时,系统仅识别计算引擎默认支持的写法(如Oracle默认识别大写名称对象),其他同名元数据不做处理。

需在元仓租户中开通元数据采集-大数据版功能,支持使用大数据存储类型的采集源。

权限说明

超级管理员、系统管理员和具有元数据采集任务管理权限的自定义全局角色支持新建及管理元数据采集任务。

新建采集任务

  1. 在Dataphin首页的顶部菜单栏,选择治理 > 元数据

  2. 单击左侧导航栏的采集任务,再单击+新建采集任务按钮,进入新建采集任务对话框。

  3. 新建采集任务对话框中,配置参数。

    参数

    描述

    采集任务名称

    采集任务的名称,全局唯一,不超过512个字符。

    负责人

    采集任务的负责人,可选择具有采集任务管理权限的成员。

    采集任务描述

    可添加采集任务的描述,不超过1000个字符。

    数据源

    根据数据源类型筛选数据源。支持关系型数据库和大数据存储数据库。

    • 关系型数据库:支持的数据源包括MySQL、Oracle、PostgreSQL、Microsoft SQL Server、AnalyticDB for MySQL 3.0、PolarDB-X(原DRDS)、SAP HANA、IBM DB2。

    • 大数据存储:支持的数据源包括Hive(MySQL元数据库)、Hologres、StarRocks。

    您可以点击查看,跳转至数据源管理页面,系统会为您筛选出相关的数据源。

    说明
    • 若选中的数据源未配置数据源编码,后续可能无法通过JDBC或在BI平台使用已采集的元数据。如果需要配置数据源编码,详情请参见Dataphin支持的数据源

    • 一个数据源仅支持配置一个采集任务,同一个数据源的2个不同环境源(开发环境和生产环境)可分别配置采集任务。

    采集范围

    您可以根据不同的数据源类型配置不同的任务采集范围。

    • 当数据源类型为MySQLAnalyticDB for MySQL 3.0PolarDB-X(原DRDS)、HiveStarRocks时,将根据数据源配置的JDBC URL自动解析对应的dbname(数据库名称)。

    • 当数据源类型为OraclePostgreSQLMicrosoft SQL ServerSAP HANAIBM DB2、Hologres时,支持根据schema(即数据源实例下的数据库名称)配置采集范围,您可以选择全部schema指定schema

      • 全部schema:根据数据源配置动态获取所有有查询权限的schema。

      • 指定schema:根据数据源配置指定其他有权限的schema或一键快捷填充默认schema;若自定义输入schema,字符需区分大小写。

    说明

    当采集范围为Hive、StarRocks数据源时,单张分区表根据创建时间采集最近10万个分区。

    采集对象类型

    支持视图字段三种采集对象类型。

    说明

    当数据源为StarRocks时,不支持采集同步物化视图。

    归属业务系统

    请选择从该来源采集的元数据归属的业务系统,后续可用于资产对象筛选、业务系统血缘关系展示等场景。如需创建,请参见新建及管理业务系统

  4. 单击下一步,配置采集策略。

    参数

    描述

    数据更新策略

    新增/变更元数据

    对比上一次采集,若源系统有新增、更新的数据,系统将会添加新的元数据,更新已变更元数据

    已删除元数据

    对比上一次采集,若源系统有删除的数据,可选择从元数据清单及资产清单中删除忽略删除操作

    • 从元数据清单及资产清单中删除:同步删除已经采集的元数据信息,删除后无法恢复。

    • 忽略删除操作:忽略源系统的删除操作,仍可在元数据清单和资产清单中查看该对象详情和历史版本,后续可手动删除。

    数据采集计划

    采集频率

    用于控制任务采集的频率,支持定时采集手动采集

    • 定时采集:根据配置的调度时间自动执行任务的采集,适用于对采集任务更新时效性较高的场景,支持每日每周每月,可配置的定时开始执行时间区间为00:00~23:59。当选择每月调度时间,支持选择月末日

    • 手动采集:需要手动触发任务的采集,适用于元数据变更频率较低且希望节约资源的场景。

    运行配置

    出错重试

    针对运行失败的采集实例,可以根据配置的重试次数重试间隔决定是否重新运行采集实例。

    • 重试次数:采集实例运行失败后是否需要自动重试运行以及最大可自动重试的次数。默认1次,支持配置1~10次之间的正整数。

    • 重试间隔:每次自动重新运行的时间间隔。默认5分钟,支持配置的时间范围为1~60分钟。

    说明

    出错重试和定时采集可能会产生冲突,如果到达下一个采集时间点,上一次采集任务运行仍未结束,则下一次定时采集将会自动推迟,您可以在采集实例列表手动终止任务执行,详情请参见查看及管理采集实例

    运行超时

    若采集任务的运行总时长(开始运行到结束运行时间,不包括资源等待和调度等待时间)超过设置的阈值仍未结束,系统会自动终止并置为失败。支持设置的时间范围为0~24小时,最多设置一位小数。

    调度资源

    采集任务调度时将占用该资源组的资源配额,为了避免并发过高占用较多资源影响其他系统任务正常运行,全局所有租户创建的采集任务遵循统一的并发运行数,请合理分配调度资源。支持选择当前租户下创建的状态为正常的资源组。

    您选择的数据源所在的网络环境和调度资源组所在的网络环境需要互通,否则采集任务无法执行。选择完成后。您可以单击测试连接进行网络连通性测试。如果测试连接测试失败,您可以单击查看日志,查看具体失败原因。

    说明

    大数据存储类型的数据源仅支持使用默认集群下创建的自定义资源组进行连接。

    连接配置

    您可以查看已选采集源的连接配置信息,作为采集频率和采集时间配置的参考,详情请参见Dataphin支持的数据源

    说明

    当前的连接配置将同时应用于离线集成任务、全域质量监控规则、元数据采集任务。

  5. 单击确定,完成采集任务的创建。

管理采集任务

  1. 采集任务页面为您展示采集任务的名称、采集的数据源类型、数据源及数据源编码、负责人、采集方式、最近1次采集的状态和时间、描述、生效状态、任务状态、最近更新时间信息。

    任务状态:在采集任务列表中查看相应任务的任务状态,任务状态分为正常、创建失败、更新失败、删除失败、置为生效失败、置为失效失败、置为生效中、置为失效中、创建中、更新中、删除中、异常,且仅针对单个操作,相应任务状态下可执行的操作如下表。

    任务状态

    操作项

    正常

    查看、编辑、临时手动执行(定时采集任务支持该操作)、手动执行(手动任务支持该操作)、克隆、删除、查看元数据、查看采集实例、开启或关闭生效状态。

    创建失败

    重试、查看执行日志、查看、编辑、删除。

    更新失败/删除失败/置为生效失败/置为失效失败

    重试、查看执行日志、查看、编辑、删除、查看元数据、查看采集实例。

    置为生效中/置为失效中

    查看。

    置为生效中或置为失效中时不支持修改生效状态。

    创建中/更新中/删除中

    查看。

    异常

    查看、编辑、删除、查看元数据、查看采集实例。

  2. (可选)您可以根据采集任务的名称搜索目标采集任务,也可以快捷筛选我负责的任务、生效任务,或者根据任务状态、生效状态、负责人、数据源类型、数据源环境、数据源、采集方式筛选目标采集任务。

  3. 在目标采集任务操作列下可进行如下操作。

    操作项

    描述

    重试

    支持将运行失败的采集任务重新运行。

    查看执行日志

    支持查看运行失败的采集任务的运行日志。

    查看

    支持查看采集任务的配置信息。

    编辑

    不支持修改数据源类型和数据源,其他信息修改后,不影响生效状态。

    临时手动执行

    仅正常状态的定时采集任务支持临时手动执行,如果在到达下一次定时运行时间时本次运行的实例仍未结束,可能会导致数据不一致。若该任务已经存在一个正在运行中的实例(定时采集实例和临时手动执行的采集实例),需要先终止该实例,然后再重新操作。

    手动执行

    仅正常状态的手动采集任务支持手动执行,若该任务已经存在一个正在运行中的实例(定时采集实例和临时手动执行的采集实例),需要先终止该实例,然后再重新操作。

    克隆

    支持快速复制采集任务的配置信息,但是需要重新配置数据源和采集范围。

    删除

    • 单个删除:您可以单击操作列下的image,选择删除,删除采集任务。

    • 批量删除:选中需要删除的采集任务,单击底部的image图标,批量删除采集任务。

    说明

    删除任务不会影响正在运行中的实例,如果需要,您可以手动终止。任务删除成功后,不会继续生成新的采集实例。支持配置的删除策略为同步删除已采集的元数据仅删除任务,保留已采集的元数据

    • 同步删除已采集的元数据:同步从元数据清单列表和资产清单中删除通过该任务从指定数据源采集到的元数据。

    • 仅删除任务,保留已采集的元数据:仅删除采集任务本身,在元数据清单和资产清单中保留从指定数据源已经采集到的元数据。后续如果选择相同的数据源重新创建采集任务,可能会覆盖已保留的元数据信息。

    查看元数据清单

    支持跳转至元数据清单列表页面,系统会为您筛选出该任务配置的数据源相关的元数据信息。

    查看采集实例

    支持跳转至采集实例列表页面,系统会为您筛选出与该任务相关的实例。

    修改生效状态

    • 修改单个生效状态:您可以单击生效状态列下的image开关,开启或关闭生效状态。

    • 批量修改生效状态:选中需要修改生效状态的采集任务,单击底部的image图标,开启或关闭生效状态。

    说明

    开启后,采集任务将会按照配置的调度自动执行;关闭后,正在运行中或已生成待运行的实例不受影响,后续生成的采集实例将不会自动执行,您可以手动运行任务。

后续步骤