DataWorks的Check节点可用于检查目标对象(MaxCompute分区表、FTP文件、OSS文件、HDFS文件、OSS_HDFS文件以及实时同步任务)是否可用,当Check节点满足检查策略后会返回运行成功状态。如果某任务的运行依赖目标对象,您可使用Check节点检查目标对象,并设置该任务为Check节点的下游任务,当Check节点满足检查策略后,便会运行成功并触发下游任务执行。本文为您介绍Check节点支持检查的对象、具体的检查策略以及如何配置Check节点。
节点介绍
检查节点,可对MaxCompute分区表、FTP文件、OSS文件、HDFS文件、OSS_HDFS文件以及实时同步任务进行监控检查,可实现的场景如下:
DataWorks调度系统中的任务需要访问一个外部数据库时,由于该数据库的相关数据写入任务不在DataWorks中,DataWorks无法知道该数据库何时完成写入任务并可以被访问。如果DataWorks读取未写入完成的数据,则可能导致读取的数据不全或读取失败。为了保证DataWorks任务正常执行,所以采用检查节点来对表、文件或同步任务进行检查,确保下游任务运行时的数据能被完全读取。
前提条件
RAM账号添加至对应空间(可选)。
进行任务开发的RAM账号已被添加至对应工作空间中,并具有开发或空间管理员(权限较大,谨慎添加)角色权限。添加成员并授权,详情请参见为工作空间添加空间成员。
对应空间已绑定Serverless资源组。详情请参见:使用Serverless资源组。
进行检查节点开发前,需创建对应的检查节点,详情请参见:创建任务节点。
Check节点基于数据源进行校验时,使用Check节点前,请先根据要检查的对象类别创建好对应数据源,具体如下。
检查对象类别
相关准备操作
参考文档
检查对象类别
相关准备操作
参考文档
MaxCompute分区表
已创建MaxCompute数据源并绑定至数据开发(DataStudio)。
在DataWorks中,您需先将MaxCompute项目创建为DataWorks的MaxCompute数据源,才可通过该数据源访问相应MaxCompute项目的数据。
已创建MaxCompute分区表。
FTP文件
已创建FTP数据源。
在DataWorks中,您需先将FTP服务创建为DataWorks的FTP数据源,才可通过该数据源访问相应FTP服务的数据。
OSS文件
已创建OSS数据源且数据源访问模式为Access Key。
在DataWorks中,您需要先将OSS的Bucket创建为DataWorks的OSS数据源,才可通过该数据源访问相应Bucket中的数据。
目前仅支持在Check节点中通过Access Key模式访问OSS数据源,RAM角色授权模式配置的OSS数据源无法用于Check节点。
HDFS文件
已创建HDFS数据源。
在DataWorks中,您需先将HDFS文件创建为DataWorks的HDFS数据源,才可通过该数据源访问相应HDFS文件数据。
OSS_HDFS文件
已创建OSS_HDFS数据源。
在DataWorks中,您需先将OSS_HDFS服务创建为DataWorks的OSS_HDFS数据源,才可通过该数据源访问相应OSS_HDFS服务的数据。
Check节点基于实时同步任务进行校验时,仅支持Kafka到MaxCompute的实时同步任务。使用Check节点前,请先创建好对应实时同步任务,详情请参见DataStudio侧实时同步任务配置。
注意事项
当Check任务由于上游任务延迟,导致Check任务实际开始运行时间超过您在此处配置的Check任务检查截止时间时,Check任务仍会运行但只会检查一次。
Check任务的最大运行时长为24小时。
步骤一:开发检查节点
进入已创建的开发检查节点后,即可按照界面提示进行检查节点配置。检查节点可以对数据源或实时同步任务进行检查。
数据源实时同步任务检查节点对象为数据源时的配置项可参考以下表格:
配置项
配置内容
Check对象
数据源
数据源类型
支持数据源如下:
MaxCompute
OSS
FTP
HDFS
OSS_HDFS
数据源名称
可选择与数据源类型对应的数据源,若没有可选择的目标数据源,可单击右侧新建数据源。
表名/路径
若数据源类型配置的是
MaxCompute
时,可按表名来进行检查。仅支持选择分区表。
若数据源类型配置为
OSS
、FTP
、HDFS
、OSS_HDFS
时,需配置目标文件路径。
Check通过条件
若Check的内容为表时,可根据表分区或LastModifiedTime的持续无更新事件进行校验。
若Check的内容为文件时,仅支持根据文件是否存在进行校验。
Check停止策略
Check停止时间:将按照配置的间隔时间一直检查至所配置的时间。
Check停止次数:将按照配置的间隔时间,完成所配置的Check次数。
任务运行时将按照停止策略进行检测,若在Check停止策略指定的条件下Check任务仍未检查通过,Check任务将自动退出并置为失败状态。
检查节点对象为实时同步任务时的配置项可参考以下文档:
配置项
配置内容
Check对象
实时同步任务。
实时同步任务
选择已创建的实时同步任务。
Check停止策略
Check停止时间:将按照配置的间隔时间一直检查至所配置的时间。
Check停止次数:将按照配置的间隔时间,完成所配置的Check次数。
任务运行时将按照停止策略进行检测,若在Check停止策略指定的条件下Check任务仍未检查通过,Check任务将自动退出并置为失败状态。
检查节点在配置完检测策略后,即可进行调度配置,详情请参见调度配置。
步骤二:节点发布与运维
- 本页导读 (1)
- 节点介绍
- 前提条件
- 注意事项
- 步骤一:开发检查节点
- 步骤二:节点发布与运维