Dataphin中任务运行很长时间后报“Receive kill signal”错误

问题描述

Dataphin中shell任务调用自定义的udf函数,任务运行很长时间之后报错“Receive kill signal”。

[Following shell scripts will be executed]
java -jar /mnt/mesos/sandbox/resources/0000001074370/resource.flag_bit.jar 85B9134E5F5E1FD02AB58CE948AFD8E1 253C5AAEA5DEC7BE1EF0ADDC8F71742E jdbc:oracle:thin:@//IP:PORT/schema 20210917 2400 1

[Following shell command will be executed]
bash /mnt/mesos/sandbox/shell-0000001074370.sh

----- Shell command logs are shown below -----
oracle.jdbc.driver.T4CConnection@532760d8
oracle.jdbc.driver.ForwardOnlyResultSet@221af3c0
count:0

oracle.jdbc.driver.ForwardOnlyResultSet@22356acd
count:0
0
oracle.jdbc.driver.ForwardOnlyResultSet@386f0da3
count:0
0
Receive kill signal
2021-09-20 00:31:56 No outputData produced.
2021-09-20 00:31:56 Shell command exit with code: 0
2021-09-20 00:31:56 =================================================================
2021-09-20 00:31:56 Current task status: KILLED [TASK KILLED]
2021-09-20 00:31:56 Elapsed time: 2.022 d( Estimated: 10m )
2021-09-20 00:31:56 ---------------- voldemort task ends ----------------

问题原因

单个任务如果运行时间过长,默认就会被kill,默认是48小时(有些客户环境配置为24小时),超过了就会被系统自动kill。

解决方案

单个任务运行时间的最大值是可以在Dataphin平台元仓中配置的,如果要修改具体值,需要联系Dataphin平台技术支持人员协调后台开发或者部署人员进行修改。需要注意的是:若单个任务运行时间太长一直占着资源,可能会导致其他任务等待时间比较长,影响其他任务运行。

适用于

  • Dataphin