本文将为您介绍自定义调度资源下的任务长期等待资源的原因和解决方法。

问题描述

使用自定义调度资源运行的任务,长时间等待资源未能运行。

问题原因和解决方法

出现该问题的原因及相应的解决方法如下:
  • 服务器终止服务。
    • 确认方法:您可以进入资源组列表 > 自定义资源组页面,单击相应服务器后的服务器管理,查看当前服务器的状态是否终止。
    • 解决方法:如果确认服务器终止服务,请登录ECS,启动Agent。
  • 服务器暂停服务。
    • 确认方法:您可以登录ECS,查看/home/admin/alisatasknode/logs/alisatasknode_status.log日志。

      日志会实时显示服务器的状态。如果显示BUSYHANGUP,说明当前服务器存在大任务进程占用资源的情况。

    • 解决方法:执行命令ps -ef | grep taskexec,查看执行任务的进程,通过日志排查占用资源的任务。

      如果发现任务异常,可以进入DataWorks页面终止任务的运行,等待2分钟后,服务器即可自动恢复服务。

  • 服务器Agent异常。
    确认方法如下:
    • 执行命令df -h,查看磁盘是否存在100%的使用率。
    • 查看CPU、内存等指标是否过高。

    如果确认是该原因导致的问题,请在机器本身的异常处理完成后,重启Agent。