补数据可通过补历史或未来一段时间的数据,写入数据至对应时间分区。代码中若使用调度参数,则该参数将根据补数据选择的业务时间自动替换为具体值,结合业务代码将对应时间数据写入对应分区。具体写入的分区与执行的代码逻辑,与任务定义的代码有关。本文为您介绍如何补数据并管理补数据实例。
背景信息
周期任务开发完成并提交发布后,任务会按照调度配置定时运行。如果您希望在指定时间段运行周期任务,可以使用补数据功能。DataWorks周期任务的补数据操作,支持补当前节点及其下游节点,详情请参见补数据,其支持的补数据模式如下:
- 当前节点:用于对当前节点进行补数据操作。
- 当前节点及下游节点:用于对当前节点及下游节点进行批量补数据操作,通常在当前节点的下游节点数量较少时使用该功能,支持指定部分下游节点。
- 海量节点模式:用于对当前节点及下游节点进行批量补数据操作,通常在当前节点的下游节点数量较多时使用该功能,支持按照项目筛选下游节点。同时,支持节点白名单和黑名单,选中或过滤目标节点。
- 高级模式:用于灵活选择一批节点进行批量补数据操作,节点之间可以不存在依赖关系。您可以在DAG图上使用可视化方式添加节点,也可以在任务列表中添加节点。
- 您可以在当前周期任务的DAG图中,结合DAG的聚合功能,按照工作空间、所属责任人或优先级等维度将节点划分为组,直接勾选该节点组,快速添加目标类别的节点为补数据节点。实例的DAG图,详情请参见附录:DAG图功能介绍。
- 您可以在周期任务界面,通过目标条件进行筛选过滤,在左侧任务列表中,勾选符合条件的节点为需要补数据的节点。
使用限制
- 仅华南1(深圳)、中东东部 1(迪拜)地域支持周期任务使用高级模式进行补数据。
- 不支持手动删除补数据实例,实例在过期后(30天左右)平台将自动删除。如果任务不需要再运行,可以选择冻结实例。
- 公共调度资源组实例保留一个月(30天)、日志保留一周(7天)。
- 独享调度资源组任务实例、日志保留一个月(30天)。
- 完成状态的实例日志大于3M时,每天会定时进行清理。
注意事项
- 当补一个区间的数据时,在启动补数据的第一天存在一个运行失败的实例,则当天的补数据实例会被置为失败状态,第二天的实例也不会启动运行(只有当天的全部任务实例都成功,第二天的任务实例才会开始运行)。
- 小时或分钟任务补某一天数据时,当天所有实例是否并发执行与任务是否设置自依赖有关,自依赖的任务执行补数据时,如果补数据任务中第一个实例前一天的周期实例没有运行,则该补数据任务也无法触发运行。如果补数据任务的第一个实例前一天没有周期实例,则补数据实例会直接触发运行。
- 如果周期实例和补数据实例均启动运行,为了保证周期实例的正常运行,您需要终止补数据实例的运行。
- 补数据实例过多或并行数过高可能导致周期调度的资源紧张,请您根据需求合理配置。
- 为避免补数据实例占用过多的资源而影响周期实例的运行,平台对补数据实例制定以下规则:
- 如果补数据选择业务日期为昨天(T-1),即补当天数据时,补数据任务优先级由任务所在基线优先级决定。
- 如果补数据选择业务日期为历史业务日期(T-2)时,补数据任务将按照以下规则对任务进行降级处理:
- 7级、8级任务优先级降成3级。
- 5级、3级任务优先级降为2级。
- 1级任务优先级保持不变。
补数据
管理补数据实例
补数据任务启动后,会生成相应的补数据实例,您可以在运维中心页面,单击左侧导航栏的 ,查看补数据实例的基本信息及运行详情,并进行终止运行、重跑等管理操作。进入运维中心,详情请参见进入运维中心。

区域 | 描述 |
---|---|
1 | 在该区域,您可以通过筛选条件过滤出需要查询的实例。
您可以根据节点名称、节点ID、补数据名称、创建人、创建日期、运行状态、业务日期、我的节点、我发起的等条件进行精确筛选。 说明
|
2 |
在该区域,您可以查看补数据实例的相关信息,包括:
在该区域,您还可以对补数据实例执行如下操作:
|
3 |
在该区域,您可以查看补数据实例所包含节点的相关信息,包括:
在该区域,您还可以对节点任务执行如下操作:
|
4 | 您可以在区域3勾选多个目标节点任务,在本区域(区域4)单击终止运行或重跑,即可批量终止运行或重新运行所选的节点任务。 |
实例状态说明
序号 | 状态类型 | 状态标识 |
---|---|---|
1 | 运行成功状态 | ![]() |
2 | 未运行状态 | ![]() |
3 | 运行失败状态 | ![]() |
4 | 正在运行状态 | ![]() |
5 | 等待状态 | ![]() |
6 | 冻结状态 | ![]() |
常见问题
补数据相关的常见问题,请参见补数据。