补数据可通过补历史或未来一段时间的数据,将写入数据至对应时间分区。代码中的调度参数,将根据补数据选择的业务时间自动替换为具体值,并结合业务代码将对应时间数据写入指定分区。具体写入的分区与执行的代码逻辑,与任务定义的代码有关。
权限限制
您必须拥有补数据链路上所有任务的操作权限。若缺少任一任务的权限,将导致以下后果:
直接目标任务无权限:若您对补数据的根任务或其任何下游任务没有操作权限,补数据将无法执行。
中间任务无权限:若某个无权限的任务是此次补数据的中间节点(其上下游均在补数据范围内),系统将对该任务执行 “空跑” 处理。
空跑说明:任务启动后不会执行实际计算逻辑,会立即返回“成功”状态,以保障其下游任务能够被触发。
风险提示:空跑的中间任务不会产出实际数据,可能导致其下游任务因缺少输入而产出异常或失败。请务必谨慎操作。
注意事项
为确保补数据操作的稳定性和可预测性,请仔细阅读以下运行规则。
一、 实例生命周期与日志保留
实例清理:补数据实例不支持手动删除,将在创建约 30 天后由平台自动清理。若任务无需再运行,可冻结其实例以停止其调度。
保留策略:不同资源组的实例与日志保留时长不同。
资源组类型
实例保留策略
日志保留策略
公共调度资源组
30 天
7 天
独享调度资源组
30 天
30 天
Serverless 资源组
30 天
30 天
大日志清理:对于已完成的实例,当其运行日志超过 3MB 时,平台会每日定时进行清理。
二、 实例运行规则
严格按天依赖:补数据按业务日期串行执行。只有前一天的所有实例全部成功后,后一天的实例才会开始运行。若任一实例失败,将阻塞后续日期的所有任务。
小时/分钟任务的并发行为:当对某一天的所有实例进行补数据时,其运行方式由任务的 “自依赖” 属性决定:
未设置自依赖:当天内的所有实例(如 00:00, 01:00...)允许分组执行,只要各自的上游依赖满足即可。
已设置自依赖:当天内的所有实例将严格串行执行(如 01:00 的实例会等待 00:00 的实例成功后才运行)。
与周期实例的冲突:为保障常规调度,周期实例的优先级高于补数据实例。若两者同时运行,请手动终止补数据实例。
黑名单任务处理:若被加入黑名单的任务是补数据链路的中间节点,该任务同样会执行空跑,可能影响下游任务的数据产出。
三、 调度资源与优先级
合理配置资源:过多的补数据实例或过高的并行度会占用大量调度资源,可能影响周期任务的正常运行。请按需合理配置。
优先级降级策略:为保障核心业务,平台会根据补数据的业务日期,对任务优先级进行动态调整:
补昨日 (T-1) 数据:任务优先级保持不变,由其所属基线的优先级决定。
补历史 (T-2及更早) 数据:任务将自动降级,规则如下:
原 7级、8级 → 降至 3级
原 5级、3级 → 降至 2级
原 1级 → 保持不变
新建补数据任务
步骤一:进入补数据界面
进入运维中心页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的,在下拉框中选择对应工作空间后单击进入运维中心。
在左侧导航栏单击,进入补数据页面。
如需对某个周期任务补数据,也可在界面,单击对应任务后的补数据。
步骤二:新建补数据任务
在补数据页面单击新建补数据任务,根据业务需求配置补数据任务。
配置基础信息。
平台自动生成默认格式的补数据名称,您可按需修改。
选择要补数据的任务。
您可通过手动选择、按链路、按工作空间、指定任务及所有下游等方式,对您有权限操作的任务发起补数据,并基于该任务选择需要补数据的其他任务,不同方式的配置参数存在差异。
手动选择
选择一个或多个任务作为根任务,再选择根任务的下游任务作为本次补数据的任务范围。该方式兼容原当前节点、当前节点及下游节点以及高级模式补数据方案。
详细参数说明如下。
参数
描述
方式选择
选择手动选择。
搜索根任务
通过名称或ID搜索、添加根任务。您也可单击批量添加,通过资源组、调度周期、工作空间等条件搜索,批量添加多个根任务。
说明仅支持选择您已加入工作空间(即您为工作空间成员)的任务。
已选补数据列表
待执行补数据的任务。列表展示已添加的根任务,您可基于根任务选择要执行补数据的下游任务。
说明支持根据依赖关系的层级筛选下游任务,根任务的直接下游任务默认在第一层,以此类推。
最大支持同时执行补数据的根任务数上限为500,总任务数(即根任务及其下游任务)上限为2000(北京、杭州地域为3000)。
任务黑名单
若某任务无需补数据,可将其添加至黑名单。黑名单中的任务将不参与本次补数据。
说明仅支持将根任务纳入黑名单,若根任务中的子任务不需要补数据,请在已选补数据列表将其移除。
若黑名单中的任务为本次补数据的中间任务(即该任务的上下游依赖在此次补数据范围内),为保障下游任务运行,该任务将空跑(不会真实执行,任务启动运行后立即返回成功状态),但可能导致该任务的下游任务数据产出异常。
按链路选择
选择一个起始任务,以及一个或多个结束任务,通过自动分析,将根任务与结束任务间的所有任务作为本次补数据的任务范围(包括起始任务和结束任务)。
详细参数说明如下。
参数
描述
方式选择
选择按链路。
搜索任务
通过名称或ID搜索,添加一个起始任务,以及一个或多个结束任务,平台将根据起始及结束任务分析中间任务(即中间任务为起始任务的直接或间接下游任务,为结束任务的直接或间接上游任务)。
中间任务列表
平台根据起始任务及结束任务自动分析到的中间任务列表。
说明列表仅展示2000个任务,超过2000的任务不会被展示,但会正常执行。
任务黑名单
若某任务无需补数据,可将其添加至黑名单。黑名单中的任务将不参与本次补数据。
说明若黑名单中的任务为本次补数据的中间任务(即该任务的上下游依赖在此次补数据范围内),为保障下游任务运行,该任务将空跑(不会真实执行,任务启动运行后立即返回成功状态),但可能导致该任务的下游任务数据产出异常。
按工作空间选择
选择一个任务作为根任务,并按照下游节点所在工作空间确定本次补数据的任务范围。该方式兼容原海量节点模式补数据方案。
说明兼容原海量节点模式补数据方案。
不支持配置任务黑名单。
详细参数说明如下。
参数
描述
方式选择
选择按工作空间。
搜索根任务
通过名称或ID搜索、添加根任务。平台将对根任务下游任务所在工作空间的任务进行补数据。
说明仅支持选择您已加入工作空间(即您为工作空间成员)的任务。
包含根节点
定义此次补数据是否包含根任务。
补数据工作空间
基于根任务下游任务所在的工作空间,选择需要对哪些工作空间中的节点进行补数据。
说明仅支持选择当前所在地域中的DataWorks工作空间进行补数据操作。
选择工作空间后,默认对工作空间的所有节点补数据,您可根据需要自定义补数据的黑白名单。
任务白名单
除选中的工作空间包含的节点外,仍需要进行补数据的节点。
任务黑名单
选中的工作空间中不需要进行补数据的节点。
指定任务及所有下游
选择一个根任务后,平台会自动分析,将该任务及所有下游任务作为本次补数据的任务范围。
重要仅在补数据任务运行时,才能看到触发运行的任务,请谨慎使用。
详细参数说明如下。
参数
描述
方式选择
选择指定任务及所有下游。
搜索根任务
通过名称或ID搜索、添加根任务。平台将对根任务及其所有下游任务进行补数据。
说明仅支持选择您已加入的工作空间(即您为工作空间成员)的任务。
若所选根任务没有下游任务,则补数据任务提交后将只补当前根任务的数据。
任务黑名单
若某任务无需补数据,可将其添加至黑名单。黑名单中的任务将不参与本次补数据。
说明若黑名单中的任务为本次补数据的中间任务(即该任务的上下游依赖在此次补数据范围内),为保障下游任务运行,该任务将空跑(不会真实执行,任务启动运行后立即返回成功状态),但可能导致该任务的下游任务数据产出异常。
配置补数据运行策略。
根据业务需要配置补数据任务的运行时间、是否分组执行、是否触发告警、所使用的资源组等信息。
参数说明如下。
参数
描述说明
业务日期
您可以为任务指定需要补数据的业务日期。根据您选择的日期和选项,系统将采用不同的执行策略:
场景一:补历史数据(业务日期 < 当前日期)
这是最常见的补数据场景。当您选择的业务日期早于今天时,系统将立即创建并运行该历史日期的任务实例,用于回溯和重新计算过去的数据。
用途:修复历史数据错误、回填丢失数据。
执行方式:立即执行。
场景二:预定未来任务(业务日期 > 当前日期)
如果您选择一个未来的业务日期,且不勾选任何特殊选项,这相当于创建了一个未来的“一次性”定时任务。
用途:为未来已知的特定日期预先安排一次性的任务运行。
执行方式:到时执行。实例会创建并进入等待状态,直到其对应的业务日期到来时,才会按任务自身的调度配置自动运行。
场景三:提前执行未来任务 (业务日期 > 当前日期,并勾选立即运行)
立即运行定时时间大于此刻的补数据实例为高级选项,它允许您立即启动一个本该在未来运行的实例。任务的执行时间是现在,但其处理的业务逻辑和数据分区是未来的日期。
用途:提前验证未来日期的任务逻辑、为数据迁移或测试提前准备特定分区的数据。
执行方式:选择后立即执行。
示例:当前是
2024-03-12,您选择补2024-03-17的数据并勾选立即运行定时时间大于此刻的补数据实例。那么,任务实例会在2024-03-12马上启动,但它运行时所使用的业务日期参数(例如,影响数据分区将是2024-03-17。
说明业务日期的概念:在离线计算中,任务通常在今天(T)处理昨天(T-1)的数据。补数据功能就是通过生成指定“业务日期”的实例,让您能精确控制任务处理的是哪一天的数据。
多时间段:如需对多个不连续的日期进行补数据,可单击【添加】来配置多个时间段。
资源规划:建议单次补数据的时间跨度不要太长。大量的补数据实例会占用调度资源,可能影响常规周期任务的运行。
指定周期
指定所选任务需要运行的周期。任务的定时时间在该时间段内,任务才会生成实例并执行。您可通过本功能指定小时、分钟调度任务只运行指定周期的实例(即只补指定周期内的数据)。默认为
00:00~23:59。说明任务的定时时间不在该时间段内,任务不会生成实例。若存在大周期依赖小周期的情况(例如,天任务依赖小时任务),可能会产生孤立实例,阻塞任务运行。
建议仅在小时、分钟调度任务需要补指定周期的数据时修改该参数配置。
分组运行
若对多个业务日期执行补数据时,可指定若干个分组并发运行本次补数据任务。取值如下:
是:平台将按照指定的分组数对业务日期进行拆分,根据分组结果生成多个补数据批次分组并发运行。
否:按照业务日期顺序串行执行,前一个补数据实例运行结束后下一个补数据实例才会运行。
说明小时、分钟任务某天实例是否分组并发运行,与小时、分钟任务本身是否设置自依赖有关。
分组数取值范围为
2~10组,多个实例分组并发运行的情况如下:若业务日期的跨度时间少于分组数,则任务分组并发运行。
例如,业务日期为
1月11日~1月13日,分组数为4组,则只会生成三个补数据实例(每个补数据实例对应一个业务日期),三个实例分组并发运行。若业务日期的跨度时间大于分组数,则平台根据业务日期顺序兼有串行和并行执行任务。
例如,业务日期为
1月11日~1月13日,分组数为2组,则会生成两个补数据实例(其中一个补数据实例会包含两个业务日期,这两个业务日期对应的任务串行执行),两个补数据实例并行执行。
补数据告警
设置此次补数据操作是否会触发告警。
是:满足触发条件则产生告警。
否:此次补数据不会触发告警。
触发条件
仅当补数据告警选择是时,设置告警触发条件:
失败或成功皆告警:无论补数据运行成功或失败,均会产生告警。
成功告警:补数据成功时才会产生告警。
失败告警:补数据失败时才会产生告警。
告警方式
仅当补数据告警选择是时,才可选择通过短信与邮件、短信、邮件等方式接收告警,告警接收人为补数据的发起人。
说明单击检验联系方式,即可验证报警接收人的手机号或邮箱是否已登记。若未登记,可参考查看和设置报警联系人配置。
顺序
选择按照业务日期正序或业务日期倒序进行补数据。
调度资源组
指定运行补数据实例使用的资源组。
跟随任务配置:使用周期任务原本配置的资源组执行补数据实例。
指定调度资源组:使用指定资源组执行补数据实例,避免补数据实例与周期实例抢占资源。
说明请注意配置资源组网络连通,否则任务可能运行失败。若指定的资源组未绑定相关工作空间,则仍将使用原有周期任务的资源组。
推荐使用Serverless资源组或独享调度资源组计费,在任务高并发运行且无法错峰运行的情况下,可提供专有的计算资源组来保障数据快速、稳定的传输。
运行时间段
指定本次生成的补数据任务在什么时间执行。
跟随任务配置:按照补数据实例的定时时间执行。
指定时间段:设置补数据任务均在指定时间段内才会触发执行,请根据需要补数据的任务量合理设置运行时间段。
说明超过该时间段且处于未运行状态的任务不会执行,超过该时间段但处于运行状态的任务会继续执行。
计算资源
目前仅支持EMR、Serverless Spark类型的计算资源设置为补数据的计算资源。
请确保映射计算资源存在且可用,否则可能影响任务调度。
配置补数据任务校验策略。
用于配置补数据校验失败时是否终止任务执行。平台将对本次补数据任务的基本情况和潜在风险项进行检测,具体如下:
单击提交,补数据任务创建完成。
步骤三:运行补数据任务
补数据任务到达配置的运行时间,且不存在异常情况时,补数据任务将自动触发运行。
若满足如下条件,补数据任务将无法运行:
补数据任务开启校验,校验失败将阻塞任务运行。详情请参见新建补数据任务:步骤4。
补数据操作开启了扩展程序检查,检查未通过将阻塞任务运行。详情请参见扩展程序概述。
管理补数据实例
查询补数据实例
在左侧导航栏单击,进入补数据页面。

在补数据页面右侧,单击展开搜索,可通过补数据名称、运行状态、任务类型等条件筛选需要查询的实例,也可快速批量终止正在运行的补数据任务。
查看补数据实例状态

在该区域,您可查看补数据实例的相关信息,主要包括:
任务名称:展示补数据实例的名称。单击实例名称前的
图标,即可显示该实例的运行日期、运行状态,以及实例包含的节点及运行详情。检查状态:当前补数据实例的检查状态。
运行状态:包括运行成功、运行失败、等待资源、等待触发等多种状态。您可根据异常状态排查处理相关问题。
节点数:补数据实例包含的节点数量。
业务日期:运行补数据实例的日期。
查看任务分析结果:可查看任务预计的生成实例、运行日期及风险校验结果,及时处理阻塞任务。

操作:可对补数据实例进行批量终止、批量重跑、复用等操作。
操作名
说明
批量终止
可选择批量终止补数据实例中运行中状态的实例,执行此操作后,对应实例将被置为运行失败状态。
说明不支持终止运行未运行、运行成功、运行失败状态的实例
批量重跑
批量重新运行补数据实例。
说明仅支持重跑运行成功、运行失败状态的实例。
批量重跑会立即对选中的多个实例进行重跑,不会按照实例间的依赖关系运行。如需按顺序运行,请使用重跑下游或重新执行补数据操作。
复用
可选择复用某次补数据操作的节点集,方便您快速选定需要进行补数据的节点。
管理补数据任务

在该区域,可查看补数据实例所包含节点的相关信息,主要包括:
名称:单击节点名称,即可进入节点详情页查看更多节点信息。
定时时间:节点任务设置的定时运行时间。
开始运行时间:节点任务运行的起始时间。
结束时间:节点任务运行的结束时间。
运行时长:节点任务运行的时长。
操作:可对补数据节点任务进行查看DAG图、终止运行、重跑等操作管理。
操作名
说明
DAG图
查看节点的DAG图,分析节点的上下游任务。详情请参见DAG图功能介绍。
终止运行
可终止运行运行中状态的节点,执行此操作后,该节点将被置为运行失败状态。
说明不支持终止运行未运行、运行成功、运行失败状态的节点。
该操作将使实例运行失败,并阻塞实例的下游节点的运行。请知悉风险并谨慎操作。
重跑
重新运行目标节点任务。
说明仅支持重跑状态为运行成功和运行失败的节点。
更多
重跑下游
重新运行目标节点任务的下游节点。
置成功
将该节点任务的状态置为成功。
暂停(冻结)
将当前节点置为暂停(冻结)状态,并停止调度。
说明等待资源、等待时间、运行中(节点代码运行中、数据质量检验中)状态不支持冻结操作。
恢复(解冻)
将暂停(冻结)的节点恢复调度。
查看血缘
查看节点的血缘关系图。
对勾选的任务节点,单击终止运行或重跑,即可批量终止运行或重新运行所选的节点任务。
实例状态说明
状态类型 | 状态标识 |
运行成功状态 |
|
未运行状态 |
|
运行失败状态 |
|
正在运行状态 |
|
等待状态 |
|
冻结状态 |
|





