补数据任务能够支持您以不同的调度方式对历史数据进行回刷。对于需要定期进行补数据的场景,您可以通过补数据的定时调度功能进行定期补数据;对于经常补数据的节点,但补数据时间及补数据业务日期不确定的场景,您可以通过创建手动运行的补数据任务进行补数据。本文将为您介绍如何新建补数据任务。
操作步骤
在Dataphin首页,单击顶部菜单栏的研发->任务运维。
按照以下操作指引,进入新建补数据任务对话框。
选择项目(Dev-Prod模式需要选择环境)->单击补数据任务->单击+新建补数据任务。
在新建补数据任务对话框中,配置补数据参数。
参数
说明
基本信息
补数据任务名称
填写补数据任务名称,128个字符以内。
补数据任务负责人
选择补数据任务负责人。
补数据范围
起始节点
选择补数据范围的起始节点。
下游任务选择
说明若起点任务是逻辑表,下游任务展示范围取决于选中需要补数据的逻辑表字段。
列表模式:适用于所有层级的下游任务,总共最多2000个。且任务依赖可快捷选择1~10层以及全部层级。
过滤暂停任务及其下游:
默认勾选,选中后,列表不展示指定层级和筛选条件下,调度方式为暂停调度的节点及其全部下游,同时取消已勾选的暂停任务。
对于逻辑表,只要包含了暂停的字段即被过滤;依赖下游列表中被标识了暂停的逻辑表包含的所有字段的下游任务也均被过滤。
说明下游逻辑表字段只能整体选中补数据,不能只过滤掉暂停的字段。
海量模式:如果列表模式无法满足您对下游节点选择的要求(例如节点数量过多,或者需要批量选择某些制定节点),您可以选择海量模式,海量模式将按照筛选条件从当前节点向下查找选中范围内的任务,并依据依赖关系进行编排。适用于需要全局补数据的场景。同时海量模式支持以下筛选参数:
覆盖范围:支持通过指定项目、指定节点输出名称、当前节点的全部下游、指定一级子节点及其全部下游、指定终点来指定范围。
指定项目:通过指定项目来指定补数据范围。
指定节点输出名称:通过填写节点输出名称来指定补数据范围。输入多个时,需以回车换行。最多输入1000个。
当前节点的全部下游:补当前节点的全部下游节点数据。
指定一级子节点及全部下游:补当前节点的若干个一级子节点及其全部下游节点。
指定终点:将补起点到终点链路上所有的节点数据。起点默认为当前节点,不支持修改。终点支持选择多个终点节点。
指定节点名称:通过填写节点名称来指定补数据范围。多个节点以回车换行,最多输入5000个字符。一个节点名称存在多个任务时,您可以单击提示信息的选择补数据节点,在存在节点名称重复的节点对话框中,选择对应节点,进行二次确认需要补数据的节点。
说明如果所选的终点节点非起点的下游节点,则只对起点和终点两个孤立节点进行补数据。
终点可以通过搜索id/节点名称进行搜索,搜索范围为当前租户内的所有节点。
逻辑表任务终点只支持选择到全表(全部字段)。
选中范围内排除:指定需要在覆盖范围内排除的节点输出名称或节点名称。默认选中排除暂停节点及其下游,同列表模式中过滤暂停节点及其下游。
说明在选中范围内排除某些任务后,补数据实例的DAG图上可能产生孤立的任务节点。
适用于只对下游某一个任务节点进行补数据的场景。
已选节点列表:海量模式下。支持查看已选的节点列表以确认补数据节点或单击导出已选节点列表导出为本地文件,文件格式为
csv
。
运行配置
调度类型
支持定时调度或手动运行。
定时调度:补数据任务将会在设置的定时运行时间前一天23点前生成补数据实例进行调度运行。定时调度需配置定时运行时间及补数据业务日期。
定时运行时间:支持日、周、月。
说明月定时运行时间支持选择月末日(每月最后一天)运行。
补数据业务日期:支持最近N天、最近N周(周日~周一)、最近N月(月初~月末日)或自定义补数据业务日期。
手动运行:手动生成补数据实例并运行。
高级配置
并发运行组数
并发运行组数用于控制同时有多少个补数据进程在运行。您可以选择并发运行的组数,系统支持最少并发运行1组,最多并发运行12组。
业务日期的跨度时间小于并发运行组数,则实际并行组数为业务日期天数。
业务日期的跨度时间大于并发运行组数,则可能兼有串行和并行。相同组内的实例按业务日期顺序运行,不同组之间的实例并行运行。例如,业务日期是1月11日~1月13日,并发运行组数为2,11号和12号为一组,13号为一组,11号和13号的实例同时开始运行,12号的实例则会在11号的实例运行完成后开始运行。
说明所选节点中存在跨周期依赖时不支持并发运行。
补数据顺序
可选择根据业务时间正序或倒序进行补数据。
说明所选节点中存在跨周期依赖时不支持按业务日期倒序补数。
本节点是否空跑
选择本任务是否需要空跑:
是:当前任务对应的补数据实例空跑运行,即一调度到该任务便直接返回成功,没有真正的执行该任务。
说明适用于当前节点不需要补数据,但是需要以当前节点为起点选中下游进行补数据的场景。
否:本节点正常运行。
暂停调度任务对应实例
配置暂停调度的任务生成的补数据实例的运行状态:
暂停运行(可能会阻断补数据进程):即暂停调度的任务生成的补数据实例均暂停运行,会阻断下游实例正常运行。
说明适用于当前任务及其下游任务均不需要运行的场景。
空跑:若选择空跑,则选中的暂停任务生成的补数据实例将直接空跑成功。
说明适用于当前任务无需运行,但下游任务需要按照调度配置正常运行的场景。
正常运行:暂停状态的任务生成的补数据实例均正常运行。
说明适用于当前节点被设置为暂停调度,在选中的补数据业务日期需要正常运行的场景。
空跑调度任务对应实例
配置空跑调度的任务生成的补数据实例的运行状态:
空跑:若选择空跑,则选中的空跑调度任务生成的补数据实例将直接空跑成功。
正常运行:空跑状态的任务生成的补数据实例均正常运行。
小时区间影响范围
如果是小时、分钟任务,则还需要配置生效范围:
不影响日/周/月调度任务(选中即运行):即下游任务不受小时区间选择的影响,全部运行。
日/周/月调度任务只有定时运行时间在选中小时区间内才会运行:即下游任务受小时区间影响,只有定时运行时间在选中小时区间内才运行。
指定临时调度资源组
如果您开启了自定义资源组功能,支持指定本次补数据操作临时使用的资源组,以满足临时性的资源消耗需求。详情请参见资源组概述。 如果未指定临时调度资源组,将使用每个任务配置的任务调度资源组进行调度运行。
说明配置的资源组仅支持选择应用场景包含批量运维操作的资源组。
单击确定,完成补数据任务的创建。
后续步骤
完成补数据任务创建后,您可以根据任务的调度类型对补数据任务进行运维管理,例如手动运行补数据任务、删除补数据任务、转交任务运维负责人等操作。更多信息,请参见: