在普通的MaxCompute MR(MapReduce)组件上增加了多日期循环执行功能,用于并行执行某段时间内天级别MR任务。例如在推荐算法定制场景中,并行执行过去30天的EasyRecFGMapper任务。
使用限制
仅支持天级别的补数据循环。
在使用时按照需要打开或关闭多日期循环执行开关,在整个工作流发布至周期性调度之前切记关闭多日期循环执行开关,避免生产环境下产生不需要的重复执行补数据任务。
节点上配置的并发数仅能控制当前节点的并发,如果有多个节点都需要补数据,需要您自己统一考虑当前项目资源支持的总并发数。
可视化配置组件参数
Designer仅支持通过可视化方式,配置该组件参数,参数详情如下表所示。
页签 | 参数 | 描述 |
参数设置 | 业务基准日期 | 支持以下两种配置方式:
|
是否打开多日期循环执行 | 默认打开多日期循环执行。如果不打开多日期循环执行,则该组件退化为普通的MR组件。 | |
执行时间窗口 | 支持配置整数和开闭区间,多个区间使用半角逗号(,)分隔。 配置后会从业务基准日期计算出每个窗口对应的日期段,总计启动N个子任务,且N不超过100。 例如:执行时间窗口配置为 | |
最大并发数 | 默认值为3,避免一次性提交大量并发任务打满资源。 | |
日期格式 | 支持配置以下三种时间格式,用于生成
例如:选择yyyy-MM-dd,则在示例参数中替换 | |
资源OSS路径 | 资源文件所在目录。 | |
资源文件列表 | 多个资源文件以半角逗号(,)隔开。 | |
classpath的oss路径 | JAR文件路径。 | |
Main class | Main class的完整路径。 | |
MR任务输入参数 | 如果打开了多日期循环执行,切记在需要循环的日期字段处,引用系统变量${pai.system.cycledate}。 在实际执行时,按照当前示例中的配置会并行启动3个任务,其他功能同普通MR脚本组件。 |
使用示例
请参考推荐算法定制-向量召回案例的节点 2_rec_sln_demo_dssm_recall_vector_recall_sample_fg_encoded_v1,该节点使用了时间窗口MR脚本组件。