检查节点

更新时间:2025-02-05 05:25:41

DataWorksCheck节点可用于检查目标对象(MaxCompute分区表、FTP文件、OSS文件、HDFS文件、OSS_HDFS文件以及实时同步任务)是否可用,当Check节点满足检查策略后会返回运行成功状态。如果某任务的运行依赖目标对象,您可使用Check节点检查目标对象,并设置该任务为Check节点的下游任务,当Check节点满足检查策略后,便会运行成功并触发下游任务执行。本文为您介绍Check节点支持检查的对象、具体的检查策略以及如何配置Check节点。

节点介绍

检查节点,可对MaxCompute分区表、FTP文件、OSS文件、HDFS文件、OSS_HDFS文件以及实时同步任务进行监控检查,可实现的场景如下:

DataWorks调度系统中的任务需要访问一个外部数据库时,由于该数据库的相关数据写入任务不在DataWorks中,DataWorks无法知道该数据库何时完成写入任务并可以被访问。如果DataWorks读取未写入完成的数据,则可能导致读取的数据不全或读取失败。为了保证DataWorks任务正常执行,所以采用检查节点来对表、文件或同步任务进行检查,确保下游任务运行时的数据能被完全读取。

前提条件

  • RAM账号添加至对应空间(可选)。

    进行任务开发的RAM账号已被添加至对应工作空间中,并具有开发空间管理员(权限较大,谨慎添加)角色权限。添加成员并授权,详情请参见为工作空间添加空间成员

  • 对应空间已绑定Serverless资源组。详情请参见:使用Serverless资源组

  • 进行检查节点开发前,需创建对应的检查节点,详情请参见:创建任务节点

  • Check节点基于数据源进行校验时,使用Check节点前,请先根据要检查的对象类别创建好对应数据源,具体如下。

    检查对象类别

    相关准备操作

    参考文档

    检查对象类别

    相关准备操作

    参考文档

    MaxCompute分区表

    1. 已创建MaxCompute数据源并绑定至数据开发(DataStudio)。

      DataWorks中,您需先将MaxCompute项目创建为DataWorksMaxCompute数据源,才可通过该数据源访问相应MaxCompute项目的数据。

    2. 已创建MaxCompute分区表。

    FTP文件

    已创建FTP数据源。

    DataWorks中,您需先将FTP服务创建为DataWorksFTP数据源,才可通过该数据源访问相应FTP服务的数据。

    FTP数据源

    OSS文件

    已创建OSS数据源且数据源访问模式为Access Key。

    DataWorks中,您需要先将OSSBucket创建为DataWorksOSS数据源,才可通过该数据源访问相应Bucket中的数据。

    说明

    目前仅支持在Check节点中通过Access Key模式访问OSS数据源,RAM角色授权模式配置的OSS数据源无法用于Check节点。

    HDFS文件

    已创建HDFS数据源。

    DataWorks中,您需先将HDFS文件创建为DataWorksHDFS数据源,才可通过该数据源访问相应HDFS文件数据。

    HDFS数据源

    OSS_HDFS文件

    已创建OSS_HDFS数据源。

    DataWorks中,您需先将OSS_HDFS服务创建为DataWorksOSS_HDFS数据源,才可通过该数据源访问相应OSS_HDFS服务的数据。

    OSS-HDFS数据源

  • Check节点基于实时同步任务进行校验时,仅支持KafkaMaxCompute的实时同步任务。使用Check节点前,请先创建好对应实时同步任务,详情请参见DataStudio侧实时同步任务配置

注意事项

  • Check任务由于上游任务延迟,导致Check任务实际开始运行时间超过您在此处配置的Check任务检查截止时间时,Check任务仍会运行但只会检查一次。

  • Check任务的最大运行时长为24小时。

步骤一:开发检查节点

  1. 进入已创建的开发检查节点后,即可按照界面提示进行检查节点配置。检查节点可以对数据源或实时同步任务进行检查。

    数据源
    实时同步任务

    检查节点对象为数据源时的配置项可参考以下表格:

    配置项

    配置内容

    Check对象

    数据源

    数据源类型

    支持数据源如下:

    • MaxCompute

    • OSS

    • FTP

    • HDFS

    • OSS_HDFS

    数据源名称

    可选择与数据源类型对应的数据源,若没有可选择的目标数据源,可单击右侧新建数据源

    表名/路径

    • 若数据源类型配置的是MaxCompute时,可按表名来进行检查。

      说明

      仅支持选择分区表。

    • 若数据源类型配置为OSSFTPHDFSOSS_HDFS时,需配置目标文件路径。

    Check通过条件

    Check的内容为表时,可根据表分区或LastModifiedTime的持续无更新事件进行校验。

    Check的内容为文件时,仅支持根据文件是否存在进行校验。

    Check停止策略

    • Check停止时间:将按照配置的间隔时间一直检查至所配置的时间。

    • Check停止次数:将按照配置的间隔时间,完成所配置的Check次数。

    说明

    任务运行时将按照停止策略进行检测,若在Check停止策略指定的条件下Check任务仍未检查通过,Check任务将自动退出并置为失败状态。

    检查节点对象为实时同步任务时的配置项可参考以下文档:

    配置项

    配置内容

    Check对象

    实时同步任务。

    实时同步任务

    选择已创建的实时同步任务。

    Check停止策略

    • Check停止时间:将按照配置的间隔时间一直检查至所配置的时间。

    • Check停止次数:将按照配置的间隔时间,完成所配置的Check次数。

    说明

    任务运行时将按照停止策略进行检测,若在Check停止策略指定的条件下Check任务仍未检查通过,Check任务将自动退出并置为失败状态。

  2. 检查节点在配置完检测策略后,即可进行调度配置,详情请参见调度配置

步骤二:节点发布与运维

  1. 完成调度配置后,即可对已完成的检查节点提交发布至生产环境,详情请参见:节点发布

  2. 发布完成的任务,将按照您配置的调度进行周期运行,可在运维中心 > 任务运维 > 周期任务运维 > 周期任务中查看已发布的周期任务,并对任务进行运维操作,详情请参见:运维中心入门

  • 本页导读 (1)
  • 节点介绍
  • 前提条件
  • 注意事项
  • 步骤一:开发检查节点
  • 步骤二:节点发布与运维
AI助理

点击开启售前

在线咨询服务

你好,我是AI助理

可以解答问题、推荐解决方案等