全部产品
云市场

报错:FAILED: ODPS-0123144: Fuxi job failed - WorkerRestart

更新时间:2017-11-04 20:12:54

问题现象

执行 MapReduce 或 UDF 时,报错如下:

  1. FAILED: ODPS-0123144: Fuxi job failed - WorkerRestart errCode:252,errMsg:kInstanceMonitorTimeout, usually caused by bad udf performance.
  2. Exception in thread "main" com.aliyun.odps.OdpsException: ODPS-0123144: Fuxi job failed - WorkerRestart errCode:252,errMsg:kInstanceMonitorTimeout, usually caused by bad udf performance.

问题原因

出现上述报错,是因为集群的 Slave 节点在计算的过程中出现超时的情况,导致 Master 节点认为子节点死掉,故报错。目前的超时时间为 10 分钟,暂时不支持用户配置。

解决方法

这个报错比较常见的原因是 Reduce 里做了大循环,比如存在长尾数据或者做笛卡尔积。您需要尽量减少这种大循环的情况。

对于长尾数据,可以考虑拿出来单独处理。或者您可以手动发心跳,调用 context.progress(); 但是这个有性能问题,不适合调用太频繁。