文档

时间窗口MR脚本

更新时间:

在普通的MaxCompute MR(MapReduce)组件上增加了多日期循环执行功能,用于并行执行某段时间内天级别MR任务。例如在推荐算法定制场景中,并行执行过去30天的EasyRecFGMapper任务。

使用限制

  • 仅支持天级别的补数据循环。

  • 在使用时按照需要打开或关闭多日期循环执行开关,在整个工作流发布至周期性调度之前切记关闭多日期循环执行开关,避免生产环境下产生不需要的重复执行补数据任务。

  • 节点上配置的并发数仅能控制当前节点的并发,如果有多个节点都需要补数据,需要您自己统一考虑当前项目资源支持的总并发数。

可视化配置组件参数

Designer仅支持通过可视化方式,配置该组件参数,参数详情如下表所示。

页签

参数

描述

参数设置

业务基准日期

支持以下两种配置方式:

是否打开多日期循环执行

默认打开多日期循环执行。如果不打开多日期循环执行,则该组件退化为普通的MR组件。

执行时间窗口

支持配置整数和开闭区间,多个区间使用半角逗号(,)分隔。

配置后会从业务基准日期计算出每个窗口对应的日期段,总计启动N个子任务,且N不超过100。

例如:执行时间窗口配置为(-4,-2],0,结合业务基准日期示例20230210,代表需要执行20230207、20230208、20230210三天的任务。

最大并发数

默认值为3,避免一次性提交大量并发任务打满资源。

日期格式

支持配置以下三种时间格式,用于生成${pai.system.cycledate}系统变量。

  • yyyyMMdd(默认值)

  • yyyy-MM-dd

  • yyyy/MM/dd

例如:选择yyyy-MM-dd,则在示例参数中替换${pai.system.cycledate}时,会将20230210替换为2023-02-10。

资源OSS路径

资源文件所在目录。

资源文件列表

多个资源文件以半角逗号(,)隔开。

classpath的oss路径

JAR文件路径。

Main class

Main class的完整路径。

MR任务输入参数

如果打开了多日期循环执行,切记在需要循环的日期字段处,引用系统变量${pai.system.cycledate}。

在实际执行时,按照当前示例中的配置会并行启动3个任务,其他功能同普通MR脚本组件。

使用示例

请参考推荐算法定制-向量召回案例的节点 2_rec_sln_demo_dssm_recall_vector_recall_sample_fg_encoded_v1,该节点使用了时间窗口MR脚本组件。

  • 本页导读 (1)
文档反馈